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ll 


当下 大 数据 技术 发 展 变化 日 新 月 异 ， 大 数据 应 用 已 经 遍及 工业 和 社会 生活 的 方方面面 ， 原 有 的 数据 管理 理论 体系 与 大 数据 产 
业 应 用 之 间 的 差距 日 益 加 大 ， 而 工业 界 对 于 大 数据 人 才 的 需求 却 急 剧 增加 。 大 数据 专业 人 才 的 培养 是 新 一 轮 科技 较量 的 基础 ， 高 
等 院 校 承担 着 大 数据 人 才 培 养 的 重任 。 因 此 大 数据 相关 课程 将 逐渐 成 为 国内 高 校 计算 机 相关 专业 的 重要 课程 。 但 纵 观 大 数据 人 才 
培养 课程 体系 尚 不 尽 如 人 意 ， 多 是 已 有 课程 的 “ 冷 拼盘 ”， 顶 多 是 加 点 “调料 ”， 原 材料 没有 新 鲜 感 。 现 阶段 无 论 多 么 新 多 么 好 
的 人 才 培 养 计划 ， 都 只 能 在 20 世 纪 六 七 十 年 代 编 写 的 计算 机 知识 体系 上 施 教 ， 无 法 把 当下 大 数据 带 给 我 们 的 新 思维 、 新 知识 传导 


给 学 生 。 


为 此 我 们 意识 到 ， 缺 少 基 础 性 工作 和 原始 积累 ， 就 难以 培养 符合 工业 界 需 要 的 大 数据 复合 型 和 交叉 型 人 才 。 因 此 和 急需 在 思维 
和 理念 方面 进行 转变 ， 为 现 有 的 课程 和 知识 体系 按 大 数据 应 用 需求 进行 延展 和 补充 ， 加 入 新 的 可 以 因材施教 的 知识 模块 。 我 们 肩 
负 着 大 数据 时 代 知 识 更 新 的 使 命 ， 每 一 位 学 者 都 有 责任 和 义务 去 为 此 “ 增 砖 添 瓦 ”。 


在 此 背景 下 ， 我 们 策划 和 组 织 了 这 套 大 数据 管理 丛书 ， 希 望 能 够 培养 数据 思维 的 理念 ， 对 原 有 数据 管理 知识 体系 进行 完善 和 
补充 ， 面 向 新 的 技术 热点 ， 提 出 新 的 知识 体系 /知识 点 ， 拉 近 教 材 体系 与 大 数据 应 用 的 距离 ， 为 受 教 者 应 对 现代 技术 带 来 的 大 数 
据 领 域 的 新 问题 和 挑战 ， 扫 除 障碍 。 我 们 相信 ， 假 以 时 日 ， 这 些 著 作 汇 溪 成 河 ， 必 将 对 未 来 大 数据 人 才 培 养 起 到 “基石 ”的 作 
用 。 


丛书 定位 : 面向 新 形势 下 的 大 数据 技术 发 展 对 人 才 培 养 提出 的 挑战 ， 旨 在 为 学 术 研 究 和 人 才 培 养 提 供 可 供 参 考 的 “基石 ”。 
虽然 是 一 些 不 起 眼 的 “砖头 瓦 块 ”， 但 可 以 为 大 数据 人 才 培 养 积 累 可 用 的 新 模块 (新 素材 ) ， 弥 补 原 有 知识 体系 与 应 用 问题 之 前 
的 鸿沟 ， 力 图 为 现 有 的 数据 管理 知识 查 漏 补缺 ， 聚 少 成 多 ， 最 终 形成 适应 大 数据 技术 发 展 和 人 才 培 养 的 知识 体系 和 教材 基础 。 


从 书 特点 : 丛书 借鉴 Morgan&cClaypool Publishers 出 版 的 Synthesis Lectures on Data Management， 特 色 在 于 选 题 新 疾 ， 短 小 精 
湛 。 选 题 新 颖 即 面向 技术 热点 ， 弥 补 现 有 知识 体系 的 漏洞 和 不 足 (或 延伸 或 补充 ) ， 内 容 涵盖 大 数据 管理 的 理论 、 方 法 、 技 术 等 
诸多 方面 。 短 小 精湛 则 不 求 系统 性 和 完备 性 ， 但 每 本 书 要 自 成 知识 体系 ， 重 在 阐述 基本 问题 和 方法 ， 并 辅 以 例题 说 明 ， 便 于 施 
教 。 


从 书 组 织 : 从 书 采用 国际 学 术 出 版 通行 的 主编 负责 制 ， 为 此 特 洲 中国 人民 大 学 孟 小 峰 教 授 (email: xfmeng(@ruc.edu.cn) 担任 
丛书 主 编 ， 负 责 从 书 的 整体 规划 和 选 题 。 责 任 编 辑 为 机 械 工 业 出 版 社 华章 分 社 姚 莹 编辑 (email: yaolei@hzbook.com) 。 


在 此 期 望 有 志 于 大 数据 人 才 培 养 并 具有 丰富 理论 和 实践 经 验 的 学 者 和 专业 人 员 能 够 如 入 到 这 套 书 的 编写 工作 中 来 ， 共 同 为 中 
国 大 数据 研究 和 人 才 培 养 贡献 自己 的 智慧 和 力量 ， 共 筑 属 于 我 们 自己 的 “时 代 记 忆 ”。 欢 迎 读者 对 我 们 的 出 版 工作 提出 宝贵 意见 
和 建议 。 
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据 IDC 统 计 ，2006 年 全 球 新 产生 的 数据 量 达 到 1610 亿 GB，2007 年 达到 2810 亿 GB，2010 年 达到 12000 亿 GB (1.2ZB) ， 信 息 的 
爆炸 性 增长 使 人 们 日 常 需要 处 理 的 信息 量 迅 速 增长 ， 个 人 数据 管理 问题 日 益 突出 。 微 软 公司 的 研究 员 Gordon Bell 从 2000 年 开始 收 
集 个 人 数据 信息 ， 包 括 阅 读 的 文章 、 听 过 的 音乐 、 建 立 的 文档 、 访 问 的 网 页 、 个 人 医疗 信息 以 及 拍摄 的 照片 等 ， 到 2007 年 其 收集 
的 个 人 信息 量 已 经 达到 150GB。 个 人 信息 量 的 迅猛 增长 使 人 们 管理 个 人 信息 的 负担 日 益 加 重 。 许 多 人 都 有 这 样 的 体会 : 尽管 人 们 
在 信息 分 类 、 存 储 、 备 份 、 安 全 保护 等 方面 花费 了 大 量 时 间 和 精力 ， 但 仍然 频繁 出 现 问题 ， 如 硬盘 意外 损坏 造成 大 量 个 人 数据 备 
失 ， 记 忆 不 准确 造成 个 人 数据 查找 困难 ， 分 散 存 储 数 据 导 臻 数据 的 不 一 致 ， 无 意 之 中 造成 个 人 隐私 信息 泄露 ， 等 等 。 如 何 高 效 管 
理 个 人 数据 信息 日 益 成 为 学 术 界 和 产业 界 共 同 关 注 的 问题 ， 特 别 是 近年 来 随 着 Web 2.0、 物 联网 等 相关 技术 的 发 展 ， 以 及 手机 等 
移动 终端 的 普及 ， 个 人 的 健康 信息 、 移 动 轨 迹 等 数据 都 可 能 被 收集 起 来 ， 个 人 数据 量 会 进一步 增长 ， 个 人 数据 管理 问题 将 更 加 突 
出 


目前 大 数据 管理 技术 日 益 引起 相关 领域 学 者 的 关注 。 大 数据 管理 的 最 终 目的 是 提高 人 们 的 生活 质量 与 工作 效率 ， 这 是 大 数据 
管理 的 价值 体现 。 个 人 数据 管理 问题 本 质 上 是 分 散 、 大 规模 、 异 构 、 复 杂 数 据 的 管理 问题 在 个 人 数据 管理 领域 的 反映 ， 涉 及 数据 
存储 、 索 引 、 查 询 、 安 全 与 隐私 保护 等 诸多 问题 ， 这 也 都 是 大 数据 管理 所 要 解决 的 基本 问题 。 本 书 旨 在 基于 近年 来 作者 在 这 一 令 
域 的 研究 工作 ， 对 个 人 数据 管理 相关 技术 进行 整理 ， 以 期 对 该 领域 的 研究 人 员 、 技 术 人 员 或 普通 用 户 有 所 帮助 。 


本 书 与 同类 图 书 的 比较 


本 书 作 者 自 2006 年 开始 进行 个 人 数据 管理 方面 的 研究 。 本 书 基于 作者 及 合作 者 多 年 在 个 人 数据 管理 方面 的 研究 积累 ， 对 个 人 
数据 管理 相关 技术 进行 了 总 结 ， 内 容 涵盖 个 人 数据 管理 技术 的 发 展 、 数 据 模 型 、 数 据 集成 、 数 据 融 合 、 数 据 存 储 、 数 据 查询 、 系 
统 实现 、 个 人 数据 管理 新 技术 发 展 几 个 部 分 。 


目前 并 未 看 到 一 本 系统 介绍 个 人 数据 管理 相关 理论 、 技 术 与 系统 实现 方面 的 著作 ， 本 书 作者 参与 编写 的 《Web 数 据 管 理 : 概 
念 与 技术 》 一 书 中 介绍 了 数据 空间 的 相关 理论 与 技术 ， 但 是 并 未 特别 针对 个 人 数据 信息 管理 技术 进行 系统 的 阐述 。 
本 书 的 内 容 和 组 织 结构 

本 书 分 为 8 章 。 

第 1 章 是 本 书 的 总 述 ， 主 要 讨论 个 人 数据 管理 技术 的 发 展 、 个 人 数据 特征 以 及 个 人 数据 管理 系统 框架 。 

第 2 章 介绍 个 人 数据 空间 模型 ， 包 括 概念 模型 、 逻 辑 模型 以 及 面向 主体 的 任务 空间 和 核心 数据 空间 模型 。 


第 3 章 重 点 介绍 个 人 数据 集成 技术 ， 主 要 包括 个 人 数据 集成 的 概念 、 个 人 初始 数据 空间 的 建立 策略 以 及 个 人 操作 行为 的 识别 
技术 。 


第 4 章 重点 介绍 个 人 数据 集成 中 的 数据 融合 问题 ， 主 要 包括 个 人 数据 空间 的 同义词 概念 识别 、 个 人 数据 的 版 本 管理 、 基 于 时 
序 关 系 的 实体 引用 关系 识别 。 


第 5 章 主 要 介绍 个 人 数据 存储 技术 ， 包 括 分 布 式 数据 存储 模式 、 支 持 数据 空间 演化 的 索引 策略 。 
第 6 章 重 点 讨论 个 人 数据 查询 问题 ， 主 要 包括 查询 接口 、 基 于 同义词 的 个 人 信息 查询 、 基 于 任务 的 个 人 数据 查询 。 


第 7 章 重 点 讨论 个 人 数据 空间 系统 的 实现 技术 、 系 统 框架 及 相关 功能 。 





第 8 章 关注 的 是 个 人 数据 管理 领域 新 的 技术 成 果 和 研究 动向 。 


本 书 主要 面向 各 类 研究 人 员 和 开发 人 员 ， 既 可 以 作为 本 研究 方向 的 教科 书 ， 也 可 以 作为 本 领域 研究 人 员 的 技术 参考 书 。 


致谢 





首先 感谢 我 的 导师 孟 小 蜂 教 授 ， 我 从 2006 年 起 即 在 孟 老 师 的 指导 下 开始 从 事 个 人 数据 管理 的 研究 工作 ， 记 得 当时 读 的 第 一 篇 
文献 是 第 一 届 国 际 个 人 信息 管理 技术 研讨 会 (PIM Workshop 2005) 发 布 的 会 议 报告 ， 这 个 报告 首次 提出 了 个 人 信息 空间 的 概 
念 ， 并 对 个 人 信息 管理 的 一 些 基 本 概念 和 研究 问题 进行 了 阐述 。 后 来 孟 老 师 又 给 我 推荐 了 M.Franklin、A.Halevy 和 DD.Maiet 的 论文 

《From Databases to Dataspaces: A New Abstraction for Information Management》， 这 篇 论文 提出 了 数据 空间 的 概念 ， 并 提 及 了 其 在 
个 人 信息 管理 领域 的 应 用 ， 以 及 来 自 不同 领 域 的 学 者 对 于 个 人 数据 管理 这 一 问题 的 深入 思考 ， 这 使 我 对 这 一 研究 领域 产生 了 浓厚 
的 兴趣 。 其 后 ， 在 孟 老 师 的 指导 下 ， 我 与 WAMDM 实 验 室 的 硕士 研究 生 张 相 府 、 寇 玉 波 一 起 对 个 人 数据 空间 模型 、 个 人 数据 集 
成 、 索 引 、 任 务 挖掘 及 查询 问题 进行 了 系统 化 的 研究 工作 ， 其 间 纽 约 州 立 大 学 宾 汉 姆 顿 分 校 孟 卫 一 教授 多 次 到 访 WAMDM 实 验 
室 ， 我 有 率 与 其 就 任务 空间 等 问题 进行 了 交流 ， 孟 卫 一 教授 给 出 了 非常 好 的 建议 。 通 过 四 年 的 努力 我 最 终 完成 了 博士 论文 “个 人 
数据 空间 模型 与 查询 方法 研究 。 现 在 回想 起 来 ，WAMDM 实 验 室 以 及 Web 研 究 组 的 例会 对 于 我 的 研究 工作 影响 很 大 ， 那 种 开 
放 、 探 究 的 氛围 使 人 难忘 ， 一 个 想法 的 诞生 往往 源 于 大 家 充满 激情 的 讨论 。 博 士 研究 生 毕 业 后 我 来 到 天 津 理工 大 学 计算 机 与 通信 
工程 学 院 工 作 ， 继 续 从 事 个 人 数据 管理 方面 的 研究 ， 先 后 指导 硕士 研究 生 赵 喜 燕 、 任 标 、 雷 鹏 飞 等 围绕 个 人 数据 融合 、 数 据 关系 
识别 、 个 人 数据 安全 等 做 了 一 些 研究 ， 本 书 即 是 作者 及 合作 者 在 多 年 研究 成 果 的 基础 上 总 结 和 整理 而 成 的 。 本 书 参阅 了 WAMDM 
实验 室 潘 晓 、 王 仲 远 、 艾 静 、 杜 志 娟 等 在 位 置 隐私 、 互 联网 隐私 保护 、 大 数据 融合 方面 的 研究 工作 ， 我 指导 的 研究 生 刻 欢 、 苏 臣 
丽 对 本 书 进行 了 编辑 和 校对 ， 此 外 本 书 也 引用 了 国内 外 一 些 学 者 的 研究 工作 ， 在 此 一 并 表示 感谢 。 





我 的 与 个 人 数据 空间 相关 的 研究 课题 得 到 了 国家 自然 科学 基金 (项 目 号 ; 61170027) 和 天 津 市 自然 科学 基金 (项 目 号 : 
15JCYBJC46500) 项 目的 资助 ， 由 此 得 以 在 该 领域 继续 深入 开展 自己 的 研究 工作 。 此 外 ， 该 工作 始 于 作者 在 孟 小 峰 教授 的 
WAMDM 实 验 室 攻读 博士 学 位 期 间 的 研究 工作 ， 其 得 到 了 国家 863 计 划 “ 海 量 数据 空间 模型 、 查 询 与 索引 技术 研究 ”项 目的 支 
持 。 在 此 一 并 表示 衷心 感谢 。 


本 书 的 形成 源 于 孟 小 蜂 老 师 的 一 个 心愿 。2015 年 10 月 我 在 成 都 参加 中 国 数 据 库 年 会 (NDBC 2015) 期 间 ， 遇 到 了 孟 老 师 和 机 
械 工 业 出 版 社 华章 公司 的 姚 蕾 老师 ， 他 们 针对 目前 “大 数据 研究 热度 很 高 而 普通 人 又 感觉 大 数据 物 不 可 及 ”的 问题 ， 拟 出 版 一 套 
关于 大 数据 相关 技术 的 丛书。 孟 老 师 提 出 大 数据 本 身 就 是 与 人 相关 的 数据 ， 个 人 数据 具备 大 数据 的 基本 特征 ， 同 时 又 是 重要 的 研 
究 领 域 且 有 重要 的 应 用 价值 ， 未 来 精准 医疗 、 精 准 营销 、 个 性 化 教育 等 大 数据 应 用 都 离 不 开 个 人 数据 管理 。 于 是 作者 产生 了 出 版 
本 书 的 想法 ， 在 此 向 孟 老 师 和 姚 荔 老 师表 示 感 谢 。 





值得 指出 的 是 ， 在 全 书 的 撰写 和 课题 的 研究 中 ， 尽 管 投 入 了 大 量 的 精力 、 付 出 了 艰苦 的 努力 ， 但 受 知 识 水 平 所 限 ， 书 中 不 当 
之 处 在 所 难免 ， 是 请 读者 批评 指正 并 不 诗 赐 教 。 如 果 有 任何 建议 或 意见 ， 可 发 电子 邮件 至 liyukun@tjut.edu.cn。 


李 王 坤 


2016 年 10 月 于 天 津 理工 大 学 


1.1 引言 


言 息 技术 的 发 展 使 个 人 数据 管理 问题 日 益 突 出 ， 并 日 益 引 起 数据 库 、 信 息 检 索 、 人 机 交互 等 多 个 领域 的 专家 学 者 和 产业 界 的 
广泛 关注 。 据 IDC 统 计 ，2006 年 全 球 新 产生 的 数据 量 达 到 1610 亿 GB，2007 年 达到 2810 亿 GBI1，2010 年 达到 12000 亿 
GB (1.2ZB) 加， 信息 的 爆炸 性 增长 使 人 们 日 常 需要 处 理 的 信息 量 迅 速 增长 。 微 软 公司 的 研究 员 Gordon Bell 从 2000 年 开始 收集 
个 人 数据 信息 ， 包 括 阅读 的 文章 、 听 过 的 音乐 、 建 立 的 文档 、 访 问 的 网 页 、 个 人 医疗 信息 以 及 拍摄 的 照片 等 ， 到 2007 年 其 收集 
的 个 人 信息 量 已 经 达到 150GBDBI]。 个 人 信息 量 的 迅猛 增长 使 人 们 管理 个 人 信息 的 负担 日 益 加 重 。 据 IDC 调 查 和 内， 美国 从 事 信息 工 
作 的 人 员 平 均 每 个 月 在 个 人 信息 管理 方面 浪费 的 时 间 约 20 小 时 。 近 年 来 随 着 Web 2.0、 物 联网 、 移 动 互联 网 等 技术 以 及 移动 通信 
设备 的 发 展 ， 人 们 产生 信息 的 方式 更 加 多 样 化 ， 人 们 的 各 种 信息 也 都 可 以 更 为 容易 地 记录 下 来 ， 个 人 数据 量 会 进一步 增长 ， 未 来 
个 人 数据 管理 问题 将 更 加 突出 。 
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1.2 个 人 数据 管理 的 发 展 


实际 上 ， 当 有 个 人 信息 出 现 的 时 候 ， 就 出 现 了 如 何 有 效 管理 个 人 信息 的 问题 。 在 古代 ， 个 人 信息 主要 以 文字 符号 的 形式 存 
在 ， 记 录 或 存储 的 介质 最 初 为 树 皮 、 贝 壳 等 ， 后 来 发 展 到 用 纸张 记录 信息 。 在 这 种 情况 下 个 人 的 信息 量 还 不 大 ， 个 人 信息 管理 的 
问题 也 不 突出 。 随 着 电子 技术 的 发 展 ， 信 息 的 产生 方式 和 存储 方式 都 有 了 很 大 变化 ， 信 息 量 不 断 增加 ， 信 息 管理 问题 也 日 益 突 
出 。 据 文献 记载 ， 最 早 提出 个 人 信息 管理 (Personal Information Management，PIM) 这 一 概念 的 是 美国 科学 家 万 尼 瓦 尔 : 布 
什 (Vannevar Bush) ， 他 在 1945 年 发 表 的 《As We May Think》[ 一 文中 构想 了 一 种 能 够 帮助 人 们 管理 个 人 信息 的 工具 
Memex， 如 图 1-1 所 示 ， 并 将 其 描述 为 一 种 能 够 记录 书籍 、 唱 片 等 信息 并 能 帮助 人 们 快速 查找 所 需 信息 的 工具 。 


个 人 信息 保护 由 按钮 组 成 的 操作 界面 ， 基 于 此 用 户 可 以 
ed 在 个 人 信息 项 之 间 建 立 类 似 于 书签 的 链接 

a pe 小 关系 ， 可 以 搜索 信息 以 及 根据 需要 将 用 户 

En | 信息 输出 到 其 他 的 MEMEX 机 器 





以 文字 和 图 片 形式 记录 
在 胶片 上 的 知识 信息 


信息 处 理 设 备 


图 1-1 万 尼 瓦 尔 : 布什 提出 的 个 人 信息 管理 工具 模型 


万 尼 瓦 尔 .布什 想象 了 一 种 如 图 1-1 所 示 的 能 够 帮助 人 们 管理 信息 的 工具 Memex， 并 对 其 进行 了 这 样 的 描述 : Memex 是 一 种 
能 够 记录 所 有 书籍 、 唱 片 、 交 流 信息 的 工具 ， 它 能 够 快速 、 自 动 、 灵 活 地 帮助 人 们 查找 所 需要 的 信息 。 布 什 只 是 为 个 人 信息 管理 
进行 了 一 个 形象 化 描述 ， 随 着 信息 科学 技术 的 发 展 ， 一 些 学 者 从 不 同 视角 对 PIM 给 出 了 定义 : @PIM 是 人 们 对 于 日 常 信息 的 处 
理 、 分 类 和 访问 (Lansdale，1988) ; @PIM 是 为 用 户 创建 的 供 其 在 工作 环境 中 使 用 的 系统 ， 其 包含 获取 信息 的 规则 与 方法 、 
对 信息 进行 组 织 与 存储 的 机 制 、 维 持 系 统 运行 的 一 些 规则 与 过 程 ， 以 及 对 信息 进行 访问 、 处 理 、 产 生 输 出 的 方法 和 机 制 
(Barreau，1995) ; @PIM 的 目的 是 存储 信息 以 使 其 能 够 在 以 后 被 访问 (Boardman，2004) 。 


由 以 上 定义 可 以 看 出 ，PIM 的 定义 与 信息 技术 的 发 展 有 密切 关系 ，Lansdale 只 是 对 PIM 给 出 了 一 个 宏观 的 描述 ; Barreau 指 
出 PIM 中 应 包含 获取 信息 的 规则 、 方 法 ， 以 及 存储 信息 的 策略 、 机 制 ; 到 2004 年 ，Web 技 术 的 成 熟 和 存储 技术 的 发 展 ， 使 海量 
信息 数据 的 存储 成 为 可 能 ，Boardman 认 为 PIM 的 核心 是 数据 的 存储 和 再 访问 。 这 些 关 于 PIM 的 描述 成 为 进一步 研究 、 定 义 PIM 


的 基础 。 


2005 年 ， 在 美国 西雅图 举办 了 第 一 届 国 际 个 人 信息 管理 技术 研讨 会 (PIM Workshop 2005) ， 来 自 世界 各 地 的 专家 学 者 对 
PIM 研 究 中 的 一 些 基本 概念 、 基 本 的 科学 问题 及 其 挑战 性 等 进行 了 研讨 ， 提 交 了 一 份 研究 报告 向 。 在 这 份 报告 中 ， 对 个 人 信息 空 
间 、 个 人 信息 管理 等 基本 概念 ，PIM 研 究 内 容 、 面 临 的 机 遇 与 挑战 等 进行 了 以 下 阐述 。 


PIM 研 究 聚焦 于 信息 世界 的 一 个 信息 子 集 ， 其 中 每 个 信息 元 素 对 于 主体 都 有 一 定 的 影响 能 力 。 即 PIM 所 研究 的 信息 对 于 主体 
是 有 用 的 ， 这 种 有 用 性 可 以 是 现实 的 ， 也 可 以 是 潜在 的 。 例 如 ， 一 个 人 到 某 地 旅游 时 需要 选择 旅馆 ， 关 于 旅馆 的 信息 会 有 很 多 ， 
如 位 置 、 价 格 、 经 理 、 员 工 数目 、 曹 业 状 况 等 ， 如 果 对 该 位 旅客 做 出 选择 产生 影响 的 因素 只 有 位 置 和 价格 ， 那 么 在 其 PIM 系 统 中 
关于 旅馆 的 信息 可 以 只 包含 旅馆 的 位 置 、 价 格 信息 。 因 为 主体 的 需求 是 动态 变化 的 ， 因 此 PIM 的 信息 集合 也 是 变化 的 ， 但 具有 相 
对 稳定 性 。 在 PIM 研 究 中 ， 个 人 信息 (PI) 包括 以 下 三 层 含义 : @ 个 人 保存 并 为 自己 所 用 的 信息 ; @ 与 个 人 有 关 但 被 其 他 实体 控 
制 的 信息 ， 如 被 医疗 保险 机 构 所 掌握 着 的 健康 信息 ;@ 一 个 人 经 历 过 但 不 为 自己 所 控制 的 信息 ， 如 访问 过 的 网 页 。 


个 人 信息 项 (Personal Information ltem) : 信息 项 是 与 主体 相关 的 信息 包 。 在 传统 的 以 纸 为 介质 的 个 人 信息 管理 系统 
中 ,一 篇 文章 、 一 封 信 都 可 以 看 作 信息 项 。 现 在 的 信息 中 包含 大 量 的 数字 信息 ， 因 此 一 个 信息 项 可 以 是 一 封 电 子 邮件 、 一 个 电子 
文档 、 一 张 图 片 等 。 每 个 信息 项 有 一 个 信息 框 (Information Form) ， 信 息 框 与 具体 的 应 用 和 工具 有 关 ， 这 些 应 用 和 工具 用 来 
命名 、 和 移动、 修改、 复制 、 组 织 信息 项 ， 也 可 以 为 信息 项 赋予 一 些 属性 ， 如 Outlook 可 以 看 作 一 个 信息 框 ， 通 过 该 信息 框 可 以 实 
现 对 邮件 的 访问 。 


个 人 信息 空间 (Personal Space of Information，Psl) : 个 人 信息 空间 是 指 主体 能 够 控制 或 名 义 上 能 够 控制 的 所 有 信息 项 
组 成 的 集合 。 这 里 所 提 到 的 控制 并 不 是 指 排他 性 的 专属 ， 可 以 与 其 他 用 户 共享 ， 如 一 个 实验 室 服务 器 上 供 所 有 成 员 访 问 的 文档 信 
息 。 一 个 PSI 往 往 包 括 一 个 人 的 书籍 、 文 档 、 邮 件 、 访 问 过 的 网 页 或 其 他 存储 在 不 同 计算 机 上 的 与 主体 有 关 的 文件 。 


PSl 是 可 供用 户 通 过 多 种 方法 利用 的 潜在 的 数据 源 。 对 PSI 中 信息 的 有 效 访问 与 重用 ， 可 以 大 大 提高 个 人 的 工作 效率 。 个 人 信 
息 管理 的 目的 就 是 实现 对 个 人 信息 空间 的 有 效 重 用 。 
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映射 行为 
图 1-2 ”个 人 信息 管理 系统 概念 框架 


个 人 信息 管理 (PIM) : PIM 本 质 上 是 一 系列 操作 行为 的 集合 ， 其 行为 目的 是 建立 、 使 用 和 保持 个 人 信息 及 用 户 需求 之 间 的 
映射 。 对 个 人 信息 管理 有 关 的 行为 可 以 归 为 三 种 : 输入 行为 、 存 储 行为 和 输出 行为 。 在 此 基础 上 提出 了 一 个 如 图 1-2 所 示 的 个 人 
言 息 管 理 系 统 概念 框架 BB]。 


由 图 1-2 所 示 的 个 人 信息 管理 系统 概念 框架 可 以 看 出 ， 其 涉及 的 行为 可 以 分 为 三 类 : 信息 保持 行为 、 信 息 查找 行为 和 映射 行 


1. 信 息 保持 行为 


即 影响 个 人 信息 空间 中 数据 输入 的 一 系列 行为 。 具 体 来 说 ， 是 指 完成 从 信息 到 需求 所 进行 的 行为 。 例 如 ， 当 用 户 遇 到 某 个 信 
息 的 时 候 ， 如 访问 了 某 个 网 页 、 获 得 了 某 人 的 联系 方式 等 ， 往 往 要 将 这 些 信 息 保 存 下 来 以 备 将 来 使 用 。 这 类 行为 包括 信息 的 分 
析 、 分 类 、 记 忆 、 存 储 等 。 由 于 信息 的 隐蔽 性 、 数 据 源 的 多 样 性 、 遇 到 信息 的 偶然 性 以 及 主体 自身 因素 ， 信 息 保持 技术 涉及 诸多 


新 的 研究 问题 。 





2. 信 息 查 找 行为 


即 影响 个 人 信息 空间 中 信息 输出 的 一 系列 行为 。 具 体 来 说 ， 是 指 完成 从 需求 到 信息 所 进行 的 行为 。 例 如 ， 当 用 户 需要 用 到 个 
人 信息 空间 中 的 某 项 信息 (如 某 电 话 号 码 、 邮 件 、 图 片 等 ) 的 时 候 ， 将 个 人 需求 提交 ， 并 从 个 人 信息 空间 中 获得 该 信息 。 这 类 行 
为 涉及 查询 接口 、 人 机 界面 、 搜 索 技 术 、 信 息 分 析 、 自 动 提 醒 等 技术 。 需 要 指出 的 是 : 这 里 所 说 的 信息 查找 和 通常 所 说 的 Web 
搜索 不 同 。 其 指 的 是 从 个 人 信息 空间 中 重新 查找 曾经 见 到 过 的 信息 项 ， 而 Web 搜 索 指 的 是 在 Web 数 据 空间 中 搜索 所 希望 的 数据 
项 ， 用 户 并 不 知道 该 数据 项 是 否 真 的 存在 。 


3. 映 射 行为 


即 影响 和 实现 个 人 信息 空间 中 信息 映射 的 一 系列 行为 。 要 高 效 地 完成 上 面 两 种 行为 的 映射 ， 需 要 解决 信息 的 存储、 索引 、 安 
全 性 、 一 致 性 等 一 系列 问题 ， 这 类 行为 就 主要 针对 解决 这 些 问题 。 


PIM 研 究 聚 焦 于 个 人 信息 管理 中 与 信息 保持 、 信 息 存 储 、 信 息 查找 有 关 的 一 系列 技术 ， 以 提高 个 人 信息 管理 的 水 平 。 在 PIM 
Workshop 2005 的 研究 报告 中 盖 述 了 未 来 个 人 信息 管理 面临 的 主要 研究 问题 ， 包 括 : 个 人 信息 识别 与 保存 ; 个 人 信息 的 组 织 模 
型 ; 个 人 信息 查找 与 自动 提醒 ; 个 人 信息 管理 技术 评价 方法 ; 个 人 信息 的 安全 性 与 隐私 保护 ;主体 记忆 模式 对 信息 映射 方法 的 影 
响 等 。 

目前 ,计算 机 和 互联 网 技术 的 发 展 使 数据 日 益 成 为 重要 的 信息 承载 形式 ， 大 量 的 信息 以 数据 的 形式 存储 在 各 种 各 样 的 系统 和 
设备 中 ， 在 很 多 场景 下 ， 个 人 信息 管理 往往 表现 为 对 个 人 数据 的 管理 ， 因 此 本 书 主要 介绍 个 人 数据 空间 管理 的 相关 知识 。 

近年 来 国际 上 召开 了 多 次 个 人 信息 管理 研讨 会 ， 部 分 研讨 会 与 SIGIR 2006、SIGCHI 2008 等 不 同 领域 国际 学 术 会 议 一 同 举 
办 ， 在 SIGMOD、VLDB 等 数据 库 领 域 重要 学 术 会 议 上 也 陆续 有 一 些 关 于 个 人 数据 管理 的 相关 研究 工作 发 表 。 这 说 明 个 人 数据 管 
理 已 经 引起 不 同 领 域 学 者 的 广泛 关注 ， 且 成 为 一 个 跨 信 息 检 索 、 人 机 交互 、 数 据 库 等 多 个 学 科 的 研究 领域 。 具 体 的 研究 题目 涉及 
个 人 数据 空间 模型 、 数 据 索引 、 数 据 查 询 、 桌 面 信息 检索 、 人 机 交互 界面 设计 、 系 统 实现 等 多 个 方面 。 表 1-1 对 不 同 领 域 学 者 对 
于 个 人 信息 管理 这 一 问题 所 持 有 的 观点 进行 了 归纳 内 。 


表 1-1 不 同 领域 关于 个 人 信息 管理 的 基本 思想 


一 一 





领域 基本 观点 廊 法 
有 将 个 人 信息 看 作 非 结构 化 文本 信息 , 基 基于 关键 字 索 引 和 检索 技术 组 织 、 
信息 检索 
站 vv TY A i Ee a i ee ” i 
于 文本 信息 管理 方法 管理 个 人 数据 存储 和 搜索 个 人 信息 





应 当 适 应 大 规模 、 异 构 数 据 管 理 需 
利用 已 有 的 数据 库 技术 组 织 和 管理 个 We : i . 
| 求 , 采 用 与 之 相 适 应 的 数据 存储 、 索 引 
G1 扎 、 
四 和 查询 方法 











从 人 机 交互 角度 ,通过 分 析 用 户 行 
本 个 人 信息 管理 应 当 以 为 用 户 提供 快捷 、| 、 
| mana ages 为 ,分析 个 人 信息 管理 工具 需要 满足 
舒适 的 操作 体验 为 目标 Ae 
的 约束 条 件 


Ce 


尽管 不 同 领域 的 学 者 从 不 同 的 角度 来 看 待 个 人 信息 管理 ， 但 他 们 所 持 有 的 观点 并 不 矛盾 。 总 的 来 说 ， 未 来 的 个 人 信息 管理 系 
统 需要 综合 信息 检索 技术 在 非 结 构 化 数据 管理 方面 、 数 据 库 技 术 在 结构 化 数据 管理 方面 、 人 机 交互 技术 在 界面 设计 方面 的 技术 优 
势 和 成 果 ， 设 计 能 够 满足 各 种 人 群 需要 的 个 人 信息 管理 系统 。 


目前 大 数据 管理 日 益 成 为 一 个 重要 的 研究 领域 。 随 着 移动 互联 网 、 物 联网 、 车 联网 、 智 能 家 居 等 技术 的 发 展 及 各 种 可 穿戴 设 
备 的 普及 ， 各 种 与 人 相关 的 数据 信息 会 不 断 地 产生 并 被 集成 起 来 ， 这 些 个 人 数据 将 会 成 为 名 副 其 实 的 大 数据 。 未 来 大 数据 的 核心 
将 是 围绕 人 的 数据 ， 很 多 大 数据 应 用 也 将 围绕 着 人 的 各 种 需求 。 个 人 数据 管理 也 将 成 为 未 来 大 数据 管理 的 重要 研究 课题 。 
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1.3 个 人 数据 特征 


个 人 数据 具有 以 下 特征 : 大 规模 、 多 样 性 、 分 散 性 、 分 布 性 、 聚 集 性 、 不 确定 性 、 数 据 对 象 粒度 的 不 均衡 性 、 数 据 对 主体 的 
依赖 性 [1]， 这 些 属性 决定 了 在 个 人 数据 集成 与 管理 中 需要 采用 不 同 的 方法 与 策略 。 


1) 大 规模 。 一 般 情况 下 人 们 很 难 把 个 人 数据 和 大 数据 关联 起 来 ， 认 为 个 人 数据 不 过 就 是 个 人 计算 机 、 手 机 中 的 数据 ， 这 样 
的 数据 量 也 就 在 几 百 兆 的 数据 量 之 内 ， 怎 么 可 以 说 是 海量 数据 呢 ? 实际 上 ， 随 着 信息 技术 和 可 穿戴 设备 的 发 展 ， 人 们 的 一 言 一 行 
都 有 可 能 被 记录 下 来 ， 包 括 人 们 开车 的 信息 、 位 置 的 信息 、 从 网 上 购物 的 各 种 信息 等 。 试 想 一 下 ， 如 果 一 个 人 每 时 每 刻 的 言行 举 
动 都 会 被 记录 下 来 ， 那 么 会 有 怎样 规模 的 数据 量 。 


2) 多 样 性 。 个 人 数据 的 多 样 性 是 指 个 人 数据 类 型 的 多 样 性 ， 包 括 传统 数据 库 、 文 本 、 邮 件 、 图 片 、 音 频 、 视 频 等 。 产 生 多 
样 性 的 主要 原因 包括 以 下 方面 : 一 方面 信息 技术 的 发 展 使 得 不 断 地 产生 出 新 的 类 型 的 数据 ， 比 如 天 系数 据 库 的 发 展 产生 了 关系 型 
数据 ， 互 联网 技术 的 发 展 产 生 了 HTML 类 型 网 页 数据 ，XML 技 术 的 发 展 产 生 了 XML 类 型 数据 。 另 一 方面 是 指 主 体 个 性 化 引起 的 
多 样 性 。 数 据 空间 的 主体 是 人 ， 不 同 的 人 由 于 职业 、 年 龄 、 文 化 背景 、 民 族 等 的 不 同 ， 所 需要 管理 的 数据 也 不 尽 相同 ， 比 如 一 个 
从 事 化 学 研究 的 学 者 和 一 位 音乐 专业 的 学 生 所 管理 的 数据 、 一 位 作家 和 一 位 摄影 师 所 管理 的 数据 的 类 型 会 有 一 些 差异 。 


3) 分 散 性 。 数 据 的 分 散 性 是 指数 据 人 存放 在 不 同 的 数据 源 中 。 数 据 分 散 的 原因 是 个 人 应 用 的 多 样 性 和 随 之 而 来 的 数据 源 的 多 
样 性 。 随 着 信息 技术 的 发 展 和 各 种 个 人 信息 管理 设备 的 普及 ， 大 量 的 个 人 应 用 软件 或 工具 开始 出 现 并 获得 推广 ， 这 些 软件 或 工具 
由 不 同 的 人 员 或 部 门 开发 出 来 ， 使 用 的 数据 存储 方式 和 数据 模式 不 尽 相 同 ， 从 而 导致 个 人 信息 分 散人 存储 在 多 个 不 同 的 数据 源 中 ， 
形成 一 个 个 “信息 孤岛 ”。 比 如 每 个 人 都 有 邮箱 、 个 人 通讯 录 、 个 人 图 片 、 个 人 文档 、 个 人 收藏 夹 等 ， 这 些 信息 分 散人 存储 在 不 同 
的 系统 中 ， 无 法 进行 跨越 不 同 数据 源 的 信息 检索 。 


4) 分 布 性 。 个 人 数据 分 布 存储 在 不 同 的 物理 设备 上 。 例 如 个 人 邮件 会 存储 在 互联 网 中 的 邮件 服务 器 上 ， 个 人 文档 会 存放 在 
个 人 计算 机 上 ， 通 讯 录 等 信息 会 存储 在 手机 等 设备 上 ， 有 的 通讯 录 会 和 邮件 一 起 存放 在 网 络 邮箱 服务 器 上 ; 个 人 访问 网 页 的 收藏 
夹 也 会 存放 在 个 人 计算 机 的 浏览 器 的 目录 下 ; 个 人 照片 有 的 存放 在 个 人 计算 机 上 ， 有 的 存放 在 个 人 手机 中 。 这 种 物理 存储 的 分 布 
性 对 个 人 数据 空间 管理 和 数据 安全 提出 了 挑战 。 


5) 聚集 性 。 虽 然 个 人 数据 信息 分 布 存储 在 不 同 的 设备 和 位 置 ， 这 些 位 置 看 起 来 是 零乱 、 无 序 的 。 但 是 观察 发 现 ， 这 些 信 息 
的 分 布 也 表现 出 一 定 的 聚集 性 。 人 们 为 了 记忆 、 碍 询 的 方便 ， 往 往 会 按照 个 人 的 习惯 进行 分 类 存放 ， 而 且 相关 的 数据 往往 会 聚集 
在 一 起 。 比 如 ， 用 户 的 个 人 照片 往往 会 集中 存放 在 个 人 计算 机 的 某 个 目录 下 ; 个 人 关于 某 个 任务 的 文档 信息 也 往往 会 存放 在 特定 
的 文件 夹 中 。 这 个 规律 可 以 用 来 提高 数据 集成 和 查询 的 效率 。 


6) 不 确定 性 。 个 人 数据 的 不 确定 性 包括 两 种 ， 一 方面 是 由 于 客观 原因 造成 的 不 确定 性 。 例 如 ， 有 些 数据 信息 是 从 网 页 、 邮 
件 、 文 档 中 采用 自动 的 方式 抽取 出 来 的 ， 由 于 数据 抽取 、 模 式 匹 配 技术 等 技术 原因 的 局 限 性 ， 使 得 抽取 的 数据 具有 不 确定 性 。 另 
一 方面 是 由 于 主观 原因 造成 的 不 确定 性 。 当 用 户 遇 到 一 个 数据 项 的 时 候 ， 往 往 很 难 准确 判定 其 与 主体 的 关系 和 价值 ， 有 时 也 不 容 
易 对 其 进行 准确 的 分 类 。 用 户 经 常 遇 到 这 样 的 情况 ， 当 需要 保存 一 个 文档 的 时 候 ， 往 往 会 为 应 当 保存 到 什么 文件 夹 下 而 犹豫 不 
决 。 比 如 一 篇 论文 研究 的 问题 可 能 跨越 数据 库 、 物 理学 等 不 同学 科 方 向 ， 如 何 将 它 保存 在 个 人 计算 机 中 适合 的 位 置 并 不 容易 确 
定 ， 主 观 随意 地 分 类 往往 为 数据 查询 带 来 麻烦 。 


7) 数据 对 象 粒 度 的 不 均衡 性 。 数 据 对 象 的 粒度 是 指 一 个 数据 管理 对 象 的 大 小 。 个 人 数据 管理 所 针对 的 对 象 ， 既 包括 几 字 节 
的 数据 对 象 ， 如 电话 号 码 、 个 人 密码 等 ， 又 包括 视频 文件 等 大 小 超过 100MB 的 数据 对 象 ， 从 数据 对 象 属性 多 少 的 角度 ， 既 包括 
属性 较 少 的 简单 的 数据 对 象 ， 如 某 个 人 的 联系 方式 ， 也 包括 一 些 逻 辑 结 构 复杂 的 数据 对 象 ， 比 如 一 篇 章节 结构 复杂 的 论文 。 这 种 
粒度 的 不 均匀 特性 也 为 个 人 数据 存储 模式 和 逻辑 模式 的 确定 带 来 了 困难 。 因 此 如 何 用 一 种 统一 的 数据 模式 来 描述 这 些 不 同 格式 、 
不 同 粒度 的 数据 信息 成 为 极 具 挑战 性 的 问题 。 


8) 数据 对 主体 的 依赖 性 。 个 人 数据 是 与 特定 主体 有 关 的 所 有 数据 对 象 的 集合 ， 是 否 与 主体 相关 是 判定 一 个 数据 项 是 否 应 当 
属于 某 个 主体 的 数据 集合 的 唯一 标准 。 但 是 这 种 相关 性 的 定义 和 计算 则 是 一 个 需要 探究 的 问题 。 比 如 一 个 用 户 访问 过 的 文件 是 否 
算 作 与 其 相关 ; 一 个 用 户 没有 访问 过 的 网 页 但 确 是 关于 该 用 户 的 信息 ， 其 是 否 应 该 认定 与 用 户 相关 等 。 这 种 对 于 主体 的 依赖 性 ， 
使 得 个 人 数据 模型 、 数 据 更 新 、 存 储 、 索 引 、 查 询 等 技术 和 方法 ， 都 要 将 主体 作为 一 个 需要 考虑 的 重要 因素 。 


以 上 是 个 人 数据 的 一 些 静态 特征 。 作 为 个 人 数据 空间 的 所 有 者 、 管 理 者 和 最 终 用 户 ， 主 体 对 数据 的 访问 也 呈现 出 一 些 特点 。 


1. 用 户 对 数据 的 许多 访问 是 “再 访问 " 


人 们 对 个 人 数据 的 访问 大 部 分 都 是 “基于 确定 或 不 确定 线索 的 再 访问 ”。 人 们 保存 数据 文件 的 目的 大 都 是 为 了 将 来 对 它们 的 
重新 使 用 ， 这 与 Web 搜 索 不 同 。 对 于 Web 搜 索 ， 用 户 往往 不 知道 所 搜索 的 结果 是 否 存 在 。 基 于 这 一 结论 ， 如 果 能 够 将 用 户 访 问 
过 的 数据 信息 集中 起 来 ， 并 基于 用 户 访问 模式 区 别 对 待 ， 将 会 大 大 提高 “再 访问 ”操作 的 效率 ， 从 而 提高 总 的 访问 效率 。 


2. 个 人 数据 访问 的 局 部 性 和 连续 性 


分 析 发 现 ， 用 户 对 于 数据 项 的 访问 具有 一 定 的 连续 性 ， 即 在 一 段 时 间 内 ， 人 们 往往 会 用 到 并 访问 某 些 特定 的 数据 项 。 其 原因 
是 因为 用 户 的 行为 或 任务 往往 具有 连续 性 ， 比 如 人 们 在 从 事 一 件 工 作 的 时 候 ， 往 往 要 频繁 访问 与 之 相关 的 信息 。 又 比如 ， 用 户 在 
写 毕 业 论 文 期 间 ， 可 能 需要 反复 查阅 相关 的 文献 ， 反 复 修改 相关 的 文档 、 图 表 等 信息 。 这 一 结论 可 以 用 来 帮助 预测 用 户 访问 行 
为 ， 从 而 缩小 查询 范围 ， 提 高 数据 访问 效率 。 


3. 用 户 需 要 基于 若干 模糊 的 记忆 线索 查找 数据 对 象 


对 于 数据 库 查询 ， 用 户 知道 数据 对 象 的 存在 ， 并 且 也 往往 知道 其 确切 的 查询 线索 。 例 如 在 学 生 管理 系统 中 ， 当 用 户 查 询 一 个 
学 生 的 时 候 ， 往 往 知道 该 学 生 的 学 号 或 姓名 。 而 对 于 个 人 数据 而 言 ， 当 查找 一 个 数据 对 象 的 时 候 ， 用 户 必 须 能 够 回忆 起 相关 的 信 
息 。 由 于 时 间 、 地 点 、 访 问 频 率 等 多 种 因素 的 影响 ， 用 户 针 对 不 同 的 数据 对 象 ， 往 往 能 够 回忆 起 若干 不 同 的 线索 。 例 如 ， 时 间 信 
息 、 相 关 任 务 或 事件 、 关 键 字 、 数 据 产生 者 、 存 储 位 置 等 。 这 些 线索 有 时 是 模糊 的 、 不 确定 的 ， 而 且 用 户 有 时 需要 将 多 个 模糊 的 
线索 组 合 起 来 进行 查询 。 





4. 任 务 在 个 人 数据 管理 中 扮演 重要 角色 


用 户 对 个 人 信息 的 访问 和 处 理 往往 是 以 活动 或 任务 为 中 心 进行 的 。 研 究 表明 ， 任 务 在 个 人 数据 管理 中 扮演 着 重要 的 角色 ， 人 
们 经 常 需要 基于 任务 查询 、 访 问 、 复 制 、 分 析 个 人 数据 信息 。 人 们 经 常 遇 到 以 下 场景 : 在 实际 工作 中 ， 有 时 需要 并 行 处 理 多 项 
任务 。 这 样 就 需要 在 不 同 任务 之 间 进 行 切换 ， 每 次 更 换 任 务 时 ， 总 是 希望 能 够 快速 找到 与 其 相关 的 数据 信息 。@ 当 用 户 重 新 打开 
计算 机 的 时 候 ， 总 希望 能 够 快速 地 浏览 目前 正在 做 的 几 项 任务 ， 选 定 一 件 任务 后 也 希望 快速 地 访问 与 其 相关 文件 。@@ 当 用 户 更 换 
工作 地 点 的 时 候 (如 出 差 或 回 家 ) ， 有 时 需要 复制 与 当前 任务 有 关 的 文档 以 便 继续 进行 目前 的 工作 。@ 当 面临 一 个 新 的 任务 的 时 
候 ， 用 户 往 往 需 要 查看 以 前 是 否 完成 过 类 似 的 任务 ， 以 便 参 考 其 文档 信息 ,节省 时 间 。@@ 当 一 个 用 户 被 其 他 用 户 咨 询 曾 经 参加 的 
某 个 任务 的 相关 信息 时 ， 也 需要 查询 该 任务 及 相关 数据 信息 。Q@ 当 用 户 进行 工作 总 结 的 时 候 ， 往 往 需 要 查询 在 某 个 阶段 完成 的 任 
务 情况 。 这 种 情况 表明 ， 任 务 应 当 作 为 一 种 用 来 组 织 、 索 引 个 人 信息 的 线索 或 依据 ， 从 而 使 得 个 人 信息 管理 工具 支持 基于 任务 的 
个 人 信息 查询 。 


那么 目前 的 个 人 数据 管理 的 情况 是 什么 样 呢 ? 总 的 来 说 ， 人 们 在 个 人 信息 管理 方面 还 面临 很 多 问题 ， 具 体 如 下 : 


1) 总 体 效率 不 高 。 调 查 发 现 ， 很 多 人 都 曾经 遇 到 在 查询 自己 的 个 人 文档 时 由 于 记忆 信息 的 模糊 性 导致 查找 时 间 成 本 过 高 的 
问题 。 尽 管 人 们 试图 通过 分 类 、 加 标签 、 利 用 数据 库存 储 等 各 种 方式 对 个 人 数据 信息 按照 语义 进行 结构 化 ， 但 是 ， 由 于 在 个 人 信 
息 管理 方面 尚 有 一 些 基 础 问题 未 解决 ， 因 此 总 体 效率 不 高 。 


2) 数据 一 致 性 问题 。 由 于 个 人 数据 的 分 散 性 和 分 布 性 ， 有 时 会 导致 更 新 不 同步 问题 ， 导 致 不 同 数据 源 中 同一 个 数据 对 象 的 
属性 的 描述 不 一 致 。 比 如 在 手机 的 通讯 录 和 邮箱 的 通讯 录 中 ， 同 一 个 人 的 联系 方式 可 能 不 一 致 。 此 外 ， 在 个 人 信息 的 版 本 管理 方 
面 也 常常 遇 到 问题 ， 比 如 所 找到 的 文件 版 本 不 一 样 而 导致 各 种 问题 ， 有 时 造成 比较 严重 的 后 果 。 


3) 数据 安全 和 隐私 数据 泄露 问题 。 目 前 没有 非常 方便 有 效 的 措施 对 个 人 数据 信息 进行 有 效 的 保护 ， 根 本 原因 是 没有 有 效 的 
方法 自动 识别 个 人 数据 信息 ， 并 标记 数据 信息 的 价值 ， 从 而 无 法 快速 有 效 地 对 数据 进行 备份 ， 因 此 ， 数 据 安全 问题 依然 不 容 忽 
视 。 此 外 随 着 信息 的 分 布 人 存储 ， 人 们 将 越 来 越 多 的 个 人 信息 存放 在 云 空间 或 个 人 移动 设备 上 ， 设 备 的 丢失 、 第 三 方 服务 商 的 非法 
操作 等 都 会 导致 隐私 信息 的 泄露 ， 在 新 闻 或 网 络 上 也 会 时 常 发 现 隐私 泄露 问题 的 相关 报道 。 目 前 有 许多 学 者 在 进行 这 方面 的 研究 
工作 ， 但 还 有 一 些 理论 问题 和 基础 性 的 技术 问题 尚未 解决 。 


4) 个 人 数据 查询 问题 。 因 为 目前 个 人 数据 分 布 在 不 同 的 数据 源 中 ， 因 此 无 法 有 效 地 进行 跨 数据 源 的 查询 ， 而 这 样 的 查询 有 
时 是 必需 的 。 此 外 ， 由 于 主体 的 个 性 化 ， 比 如 年 龄 、 性 别 、 职 业 、 民 族 等 的 不 同 所 带 来 的 个 性 化 ， 使 得 个 人 数据 查询 接口 、 查 询 
处 理 策略 、 查 询 优 化 方法 等 都 需要 采用 不 同 于 以 往 的 技术 。 此 外 ， 用 户 记忆 的 局 限 性 使 得 系统 应 当 支 持 尽 可 能 多 种 类 的 查询 ， 以 


适应 众多 不 同 用 户 的 需要 。 
针对 个 人 数据 及 其 主体 数据 操作 的 特征 ， 人 们 提出 了 个 人 数据 空间 的 概念 。 


[1] 李 玉 坤 ， 任 标 ， 赵 喜 菩 ， 等 .个 人 数据 管理 技术 研究 [J] .计算 机 科学 与 探索 ，2014 (11) : 1281-1295. 


1.4 个 人 数据 空间 的 提出 


广义 上 讲 ， 个 人 信息 管理 的 对 象 是 存放 在 各 种 介质 (包括 纸张 、 胶 片 等 ) 上 的 个 人 信息 ， 第 一 届 国 际 个 人 信息 管理 技术 研讨 
会 的 研究 报告 (1 对 个 人 信息 管理 的 研究 对 象 和 个 人 信息 特征 进行 了 详细 阐述 。 


随 着 计算 机 、 互 联网 等 技术 的 发 展 ， 个 人 信息 更 多 以 数据 形式 存放 在 各 种 电子 设备 中 ， 个 人 信息 管理 主要 表现 为 对 个 人 数据 
的 管理 。2005 年 ，Alon Halevy 等 学 者 针对 海量 、 异 构 等 新 的 数据 特点 提出 了 “数据 空间 ”的 概念 叫 。 与 传统 的 数据 库 技术 相 
比 ， 其 需要 管理 的 是 大 规模 、 异 构 数据 信息 ， 因 此 在 数据 异型、 数据 操作 方面 都 需要 不 同 的 方法 和 技术 。 

个 人 数据 也 具有 大 规模 、 异 构 的 特点 ， 其 不 仅 包括 结构 化 数据 ， 也 包括 大 量 图 片 、 网 页 、 音 频 、 视 频 等 非 结构 化 数据 ， 因 此 
一 些 学 者 针对 个 人 数据 特点 提出 了 个 人 数据 空间 的 概念 中 ， 相 关 研 究 工作 日 益 得 到 大 家 的 关注 。 除 了 上 述 特征 之 外 ， 对 主体 的 依 
赖 性 是 个 人 数据 管理 系统 区 别 于 其 他 数据 管理 系统 的 重要 特征 之 一 ， 数 据 空间 是 与 主体 相关 的 数据 及 其 关系 的 集合 和 内， 数据 空间 
中 的 所 有 数据 对 于 主体 来 说 都 是 可 以 控制 的 。 主 体 相关 性 和 可 控 性 是 数据 空间 中 数据 项 的 基本 属性 ， 我 们 所 说 的 数据 空间 实际 是 
主体 数据 空间 ， 与 之 相对 的 是 公共 数据 空间 。 图 1-3 显 示 了 个 人 数据 空间 和 公共 数据 空间 的 关系 SJ， 个 人 数据 空间 是 公共 数据 
空间 的 一 个 子 集 ， 随 着 主体 需求 的 不 断 变化 ， 数 据 项 不 断 从 公共 数据 空间 纳入 到 主体 数据 空间 中 。 


主体 、 数 据 集 、 服 务 是 数据 空间 的 三 个 要 素 [oj。 主 体 是 指数 据 空间 的 所 有 者 ， 可 以 是 一 个 人 或 一 个 群 组 ， 也 可 以 是 一 个 企 
业 。 对 于 个 人 数据 空间 来 说 ， 主 体 就 是 个 人 数据 空间 的 所 有 者 。 数 据 集 是 与 主体 相关 的 所 有 可 控 数 据 的 集合 ， 其 中 不 仪 包括 数据 
对 象 ， 也 包括 数据 对 象 之 间 的 关系 。 主 体 通过 服务 对 数据 空间 进行 管理 ， 如 数据 分 类 、 查 询 、 更 新 、 索 引 等 ， 都 需要 通过 数据 空 
间 提 供 的 服务 完成 。 
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图 1-3 ”个 人 数据 空间 和 公共 数据 空间 的 关系 


以 前 研究 界 关 注 更 多 的 是 企业 数据 管理 的 问题 ， 那 么 个 人 数据 管理 和 传统 的 企业 数据 管理 有 何不 同 ? 个 人 数据 管理 与 企业 数 
据 管 理 具有 以 下 不 同 : @@ 从 面 对 的 用 户 来 看 ， 个 人 数据 管理 面 对 的 是 使 用 计算 机 的 用 户 ， 这 些 用 户 差异 很 大 ， 其 表现 在 年 龄 、 职 
业 、 知 识 背景 、 使 用 计算 机 的 习惯 等 很 多 方面 ， 而 企业 数据 管理 系统 主要 面向 具体 的 业务 流程 ， 比 如 成 本 管理 ， 这 种 业务 流程 具 
有 规范 性 ， 因 此 不 必 关 注 具体 用 户 的 差异 性 ;@ 从 数据 依赖 性 来 看 ， 个 人 数据 依赖 于 特定 主体 ， 而 企业 数据 依赖 于 企业 的 业务 流 
程 ;@ 从 数据 存储 来 说 ， 个 人 数据 分 布 在 计算 机 、 笔 记 本 、 手 机 等 设备 或 邮箱 、 网 盘 、 云 存储 空间 等 多 种 主体 能 够 控制 或 不 能 完 
全 控制 的 存储 空间 中 ， 而 企业 数据 则 存储 在 企业 控制 的 服务 器 上 ; @ 从 数据 输入 方式 来 看 ， 个 人 数据 大 部 分 通过 实体 识别 等 技术 
自动 、 透 明 地 进行 识别 和 保存 ， 而 企业 数据 往往 是 采用 人 工 录 入 方式 ; @ 在 数据 查询 方面 ， 作 为 主体 的 人 具有 多 样 性 ， 这 种 多 样 
性 表现 在 职业 、 年 龄 、 教 育 背 景 、 性 别 、 记 忆 力 等 诸多 方面 ， 这 决定 了 主体 查询 情景 和 方法 的 多 样 性 ， 而 企业 数据 查询 则 主要 面 
向 业务 需求 ， 具 有 相对 稳定 性 。 


由 此 可 见 ， 个 人 数据 与 企业 数据 并 不 完全 相同 ， 具 有 一 些 自己 的 特征 ， 因 此 针对 企业 数据 的 管理 技术 也 不 能 照搬 到 个 人 数据 
管理 中 ， 需 要 基于 个 人 数据 特征 研究 与 之 相 适 应 的 数据 管理 技术 。 


| An NSF-Sponsored Invitational Workshop on Personal Information 
Management [EB/OL | .http: / Pim.ischool.washington.edu/pim05home.htm. 

[2] M Franklin, A Halevy, D Maier.From Databases to Dataspaces: A New Abstraction for Information Management [J] |] .ASM SIGMOD 
Record, 2005, 34 (4) : 27-33. 

[3] J-P Dittrich, S MAV.iDM: A Unified and Versatile Data Model for Personal Dataspace Management [C] .In Proceedings.of the 32nd 
International Conference on Very Large Data Bases (VLDB 2006) .2006: 367-378. 

味 李 玉 坤 ， 孟 小 峰 ， 张 相 於 : 数据 空间 技术 研究 []] .软件 学 报 ，2008，19 (8) : 2018-2031. 

[5] 李 玉 坤 ， 孟 小 峰 ， 张 相 於 : 数据 空间 技术 研究 []] .软件 学 报 ，2008，19 (8) : 2018-2031. 

[6] Y Li, X Meng.Research on Personal Dataspace Management [C]| .In Proceedings of the 2nd SIGMOD PhD Workshop on Innovative 


Database Reseatch (IDAR 2008) ，2008: 7-12. 


1.5 ”个 人 数据 管理 系统 框架 


个 人 数据 管理 的 最 终 目的 是 提高 用 户 对 个 人 数据 的 管理 效率 。 基 于 此 作者 提出 了 个 人 数据 管理 系统 框架 ， 如 图 1-4 所 示 。 






数据 管理 界面 





图 1-4 个 人 数据 管理 系统 框架 
个 人 数据 管理 系统 主要 包括 数据 集成 、 数 据 模型 、 数 据 输出 、 数 据 安全 与 质量 保证 四 个 模块 。 


1) 数据 集成 。 数 据 集成 模块 负责 数据 的 输入 ， 包 括 用 户 行为 监控 器 、 个 人 数据 识别 器 和 包装 器 。 用 户 行为 监控 器 自动 监控 
用 户 行为 ， 发 现 与 用 户 相关 的 数据 信息 ; 个 人 数据 识别 器 负责 将 个 人 数据 实体 及 其 属性 识别 出 来 并 进行 保存 ;包装 器 负责 对 特定 
数据 对 象 的 处 理 。 因 为 个 人 数据 来 自 不 同 的 数据 源 ， 需 要 针对 不 同 的 数据 类 型 设计 包装 器 。 由 于 信息 的 隐蔽 性 、 数 据 源 的 多 样 
性 、 遇 到 信息 的 偶然 性 、 数 据 处 理 效率 以 及 主体 自身 因素 ， 个 人 数据 集成 需要 用 到 自然 语言 处 理 、 信 息 抽 取 等 多 方面 的 知识 。 


2) 数据 模型 。 数 据 模型 主要 涉及 数据 逻辑 模型 、 物 理 存 储 模型 。 采 用 什么 样 的 逻辑 模型 来 表示 个 人 数据 及 其 之 间 的 关系 、 
如 何 存储 和 索引 个 人 数据 等 ， 都 是 需要 研究 的 问题 。 


3) 数据 输出 。 数 据 输 出 指 影响 到 个 人 数据 输出 的 一 系列 行为 ， 涉 及 查询 、 排 序 、 提 醒 等 方面 的 问题 。 
4) 数据 安全 与 质量 保证 。 包 括 数据 安全 性 保证 策略 和 隐私 信息 保护 策略 ， 以 及 数据 质量 评价 策略 。 


为 了 满足 上 述 访问 ， 个 人 数据 系统 需要 提供 如 下 功能 。 


1. 多 种 查询 方式 


在 数据 空间 中 ， 用 户 面临 多 种 多 样 的 查询 场景 ， 需 要 不 同 的 查询 方法 。 当 用 户 需要 查询 一 个 经 常 访 问 的 数据 对 象 的 时 候 ， 用 
户 倾 向 于 使 用 资源 管理 器 以 浏览 的 方式 查询 ; 查询 一 个 很 长 时 间 没有 访问 过 的 数据 文件 时 ， 用 户 需 要 基于 关键 字 进 行 查询 ; 当 用 
户 回忆 不 起 文件 的 存储 位 置 和 关键 字 信 息 的 时 候 ， 用 户 则 需要 基于 一 些 模糊 的 信息 查询 所 需要 的 数据 文件 。 因 此 个 人 数据 空间 需 
要 能 够 支持 多 种 查询 方式 。 


2. 简 单 的 查询 接口 


个 人 数据 管理 系统 的 目的 是 帮助 用 户 有 效 地 管理 个 人 数据 资源 。 与 传统 的 数据 库 管 理 系统 相 比 ， 数 据 空 间 系统 中 不 一 定 有 专 
业 的 管理 员 ， 大 部 分 用 户 没有 很 多 的 关于 数据 管理 的 专业 知识 。 因 此 要 求 查询 接口 足够 简单 。 


3. 基 于 任务 的 查询 


个 人 数据 管理 系统 应 当 能 够 提供 基于 任务 的 查询 接口 ， 用 户 可 以 查询 所 完成 或 正在 执行 的 任务 及 其 相关 联 的 个 人 数据 信息 。 


基于 这 一 系统 框架 ， 本 书 将 从 数据 模型 、 数 据 集成 、 数 据 存 储 、 数 据 查 询 、 数 据 安全 与 隐私 保护 、 系 统 实现 、 新 技术 发 展 几 
个 方面 ， 对 个 人 数据 管理 相关 技术 进行 阐述 。 


参考 文献 


言 息 技术 的 发 展 使 得 个 人 数据 信息 急剧 膨胀 ， 个 人 信息 具有 数量 大 、 多 样 、 分 散 、 分 布 、 异 构 、 依 赖 主 体 的 特征 ， 这 些 特 征 
使 得 个 人 信息 管理 日 益 成 为 一 个 重要 的 极 具 挑 战 性 的 问题 [1 外 BJ。 个 人 信息 管理 这 一 概念 的 提出 可 以 追溯 到 1945 年 。 美 国 科学 
家 Vannevar Bush 和 出 构想 了 一 种 能 够 帮助 人 们 管理 个 人 信息 的 工具 Memex。2005 年 第 一 届 关 于 个 人 信息 管理 专题 的 研讨 会 在 美 
国 西雅图 举办 ， 并 发 表 了 大 会 报告 PI， 其 对 个 人 信息 、 个 人 信息 空间 、 个 人 信息 管理 等 一 些 基本 概念 进行 了 阐述 ， 引 起 信息 检 
索 、 数 据 库 等 领域 学 者 的 广泛 关注 。 目 前 电子 数据 成 为 信息 的 主要 承载 形式 ， 因 此 个 人 信息 管理 主要 表现 为 个 人 数据 信息 的 管 
理 (9j。 针 对 目前 数据 呈现 出 海量 、 异 构 特性 ， 并 且 传 统 的 数据 库 技术 已 经 不 能 很 好 地 管理 这 些 数据 的 情况 ，M.Franklin 和 
A.Halevy[ 提出 了 “数据 空间 ”概念 ， 一 些 学 者 将 这 一 概念 与 PIM 相 结合 ， 进 一 步 提 出 了 “个 人 数据 空间 ”的 概念 [8 外,， 文 
献 [10] 对 数据 空间 技术 进行 了 综述 分 析 ， 文 献 [1] 对 个 人 数据 管理 相关 技术 从 数据 模型 、 集 成 、 存 储 、 查 询 等 方面 进行 了 综述 分 
析 ， 提 出 了 面向 主体 的 数据 集成 框架 。 


[1] J] Gantz, D Reinsel, Chute C, etc.The Expanding Digital Universe: A Forecast of Worldwide Information Growth Through 
2010 [LEB/OL | .http: / www.emc.com/collateral/analyst-reports/expanding-digital-idc-white-paper.pdf. 

四] J Gantz, D Reinsel.The Digital Universe Decade - Are You Ready? IDC iView, May 
2010 [LEB/OL | .http: / www.emc.com/leadership/digital-universe/expanding-digital-universe.htm. 

D] J Gantz, etc.Cutting the Clutter: Trackling Information Ovetload at the 
Source [EB/OL |] .http: / www.xerox.com/assets/motion/corporate/pages/progtams/information-ovetload/pdf/Xerox-white-paper-3- 
25.pdf 

[4] Bush V.As we may think [J] .The Atlantic Monthly, 1945. 

[G5] An NSF-Sponsored Invitational Workshop on Personal Information 
Management [EB/OL | .http: / pim.ischool.washington.edu/pim05home.htm. 

[0] 李 玉 坤 ， 任 标 ， 赵 喜 燕 ， 等 .个 人 数据 管理 技术 研究 [J] .计算 机 科学 与 探索 ，2014 (11) : 1281-1295. 


[7] M Franklin, A Halevy，D Maier.From Databases to Dataspaces: A New Absttaction for Information Management [J] .ASM SIGMOD 


Record, 2005, 34 (4) : 27-33. 





[8] M Franklin, A Halevy, D Maier.From Databases to Dataspaces: A New Abstraction for Information Management [J] |] .ASM SIGMOD 











Record, 2005, 34 (4) : 27-33. 

[9] JP Ditttich，S MAV.iDM: A Unified and Vetsatile Data Model for Personal Dataspace Management |[C] .In Proceedings.of the 32nd 
International Conference on Very Large Data Bases (VLDB 2006) .2006: 367-378. 

[10] 李 玉 坤 ， 孟 小 峰 ， 张 相 於 : 数据 空间 技术 研究 []] .软件 学 报 ，2008，19 (8) : 2018-2031. 

[11] Y Li, X Meng.Reseatch on Personal Dataspace Management [|C| .In Proceedings of the 2nd SIGMOD PhD Workshop on Innovative 
Database Reseatch (IDAR 2008) ，2008: 7-12. 


第 2 草 ”个 人 数据 空间 模型 


2.1 引言 


进行 个 人 数据 空间 管理 ， 首 先 要 回答 两 个 问题 : 个 人 数据 空间 应 当 包括 哪些 数据 信息 ; 需要 什么 样 的 数据 模型 来 刻画 这 些 数 
据 信息 。 模 型 是 数据 空间 管理 领域 需要 研究 的 基本 问题 之 一 ， 不 同 的 模型 往往 适应 不 同 的 数据 特点 和 操作 需求 。 例 如 ， 传 统 的 关 
系数 据 模 型 针对 结构 化 数据 ， 为 用 户 提供 结构 化 数据 查询 服务 。 个 人 数据 空间 具有 不 同 的 数据 特征 ， 因 此 需要 探索 与 之 特征 相 适 
应 的 数据 空间 模型 以 支持 数据 操作 。 


传统 的 关系 数据 模型 不 能 有 效 地 描述 非 结 构 化 、 半 结构 化 数据 ， 一 些 新 提出 的 数据 模型 ， 如 XML、RDF 等 ， 侧 重 于 统一 描 
述 各 种 非 结构 化 和 半 结 构 化 数据 ， 但 是 都 没有 考虑 主体 在 数据 管理 中 的 作用 ， 无 法 有 效 地 描述 数据 和 主体 之 间 的 关系 ， 因 而 不 能 
支持 用 户 对 数据 空间 的 有 效 访问 。 因 此 需要 一 种 更 为 灵活 的 数据 模型 ， 以 提供 更 加 有 效 的 数据 服务 。 


本 章 从 个 人 数据 空间 概念 模型 、 逻 辑 模型 和 面向 主体 的 数据 模型 几 个 方面 ， 对 个 人 数据 空间 模型 进行 介绍 。 
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述 各 种 非 结构 化 和 半 结 构 化 数据 ， 但 是 都 没有 考虑 主体 在 数据 管理 中 的 作用 ， 无 法 有 效 地 描述 数据 和 主体 之 间 的 关系 ， 因 而 不 能 
支持 用 户 对 数据 空间 的 有 效 访问 。 因 此 需要 一 种 更 为 灵活 的 数据 模型 ， 以 提供 更 加 有 效 的 数据 服务 。 


本 章 从 个 人 数据 空间 概念 模型 、 逻 辑 模型 和 面向 主体 的 数据 模型 几 个 方面 ， 对 个 人 数据 空间 模型 进行 介绍 。 


2.2 ”概念 模型 


直观 来 说 ， 个 人 数据 空间 是 与 主体 相关 的 数据 及 其 关系 的 集合 ， 如 第 1 章 所 述 ， 个 人 数据 的 多 样 性 要 求 个 人 数据 空间 的 数据 
模型 具有 广泛 的 适应 性 ， 能 够 非常 方便 地 刻画 各 种 数据 信息 。 此 外 ， 因 为 主体 的 任务 、 工 作 、 环 境 等 是 可 能 经 常 变化 的 ， 因 此 要 
求 数据 空间 模型 具有 非常 好 的 适应 性 ， 能 够 非常 方便 地 刻画 各 种 新 出 现 的 数据 对 象 及 其 联系 。 


2.2.1 ”从 数据 到 模式 


传统 的 数据 库 是 基于 一 种 “从 模式 到 数据 ”的 管理 思想 [1]， 即 针对 一 种 数据 管理 需求 ， 首 先 要 定义 出 数据 模式 ， 然 后 才能 
入 数据 。 对 于 个 人 来 说 ， 其 任务 是 不 断 变化 的 ， 因 此 会 意外 地 遇 到 希望 保存 的 数据 对 象 。 在 这 样 的 情况 下 ， 预 先 设计 一 个 相对 稳 
定 的 数据 模式 是 非常 困难 的 。 比 如 ， 一 个 人 漫步 的 时 候 ， 可 能 无 意 中 看 到 一 则 与 其 相关 的 招聘 广告 ， 上 网 的 时 候 可 能 会 意外 地 发 
现 一 篇 寻找 已 久 的 文章 、 歌 曲 、 电 影 或 图 片 ; 在 网 上 购物 的 时 候 ， 可 能 会 意外 地 发 现 一 款 自己 中 意 的 物品 等 。 按 照 传 统 的 数据 管 
理 方法 ， 必 须 在 设计 个 人 信息 管理 系统 的 时 候 ， 将 歌曲 、 电 影 、 商 品 及 各 种 类 型 的 广告 信息 的 数据 模式 设计 好 并 在 数据 库 中 建立 
起 来 。 这 样 会 面临 以 下 问题 : @ 世 界 上 的 实体 几乎 是 无 穷 的 ， 提 前 设计 好 这 样 的 系统 几乎 是 不 可 能 的 ; @ 如 果 设计 这 样 一 个 庞杂 
的 系统 ， 对 于 一 个 特定 的 用 户 来 说 ， 可 能 其 中 超过 90% 的 数据 模式 是 用 户 不 会 用 到 的 ， 这 是 由 用 户 的 个 性 特征 所 决定 的 。 因 此 ， 
用 户 随时 会 遇 到 | 与 自己 工作 和 生活 相关 的 各 种 各 样 的 信息 ， 而 这 种 信息 是 已 有 的 数据 库 模 式 所 不 能 描述 的 。 如 果 不 能 将 这 些 数据 
言 息 进 行 及 时 的 保存 ， 就 会 造成 信息 资源 的 浪费 。 由 此 可 见 “ 从 数据 到 模式 ”是 个 人 数据 空间 的 重要 特征 ， 其 概念 模型 需要 能 
适应 这 一 特征 。 


如 表 2-1 所 示 向 ， 与 传统 数据 库 技 术 相 比 ， 个 人 数据 空间 在 数据 模型 、 数 据 操作 、 数 据 类 型 、 数 据 关 系 以 及 构建 策略 上 ， 都 
有 明显 的 不 同 。 


表 2-1 个 人 数据 空间 与 关系 数据 库 的 比较 























个 人 数据 空间 数据 库 
数据 模型 图 模型 ,从 数据 到 模式 关系 模型 ,从 模式 到 数据 
数据 操作 尽力 而 为 精确 ,完整 
数据 类 型 多 数据 源 , 异 构 数据 单一 数据 源 ,结构 化 数据 
数据 关系 复杂 ,动态 简单 ,稳定 
构建 策略 即 用 即 付 (Pay-as-you-go) 先期 支付 (Pay-before-you-go) 


1) 数据 模型 : 传统 数据 库 基 于 关系 模型 ， 数 据 关联 是 基于 关系 表 的 。 个 人 数据 空间 的 逻辑 模型 是 一 个 图 ， 数 据 之 间 的 关系 


是 基于 对 象 的 。 无 论 是 天 系 模型 、 层 次 模型 、 面 向 对 象 模型 还 是 网 状 模型 ， 都 支持 的 是 一 种 “从 模式 到 数据 ”的 管理 方式 。 个 人 
数据 空间 则 不 同 ， 其 重要 特性 是 “从 数据 到 模式 ”。 个 人 数据 空间 的 数据 模式 可 以 是 松散 、 清 后 的 。 数 据 模式 是 在 数据 的 基础 
上 ， 根 据 主 体 需求 逐步 演化 出 来 的 。 

2) 数据 操作 : 传统 的 数据 库 技 术 具 有 模式 优先 的 特性 ， 数 据 操 作 基 于 严格 的 数据 操纵 语言 ， 操 作 结 果 是 准确 、 完 整 的 。 而 
在 个 人 数据 空间 中 ， 没 有 严格 的 数据 模式 ， 数 据 天 系 是 根据 主体 的 需要 逐步 建立 起 来 的 。 因 此 个 人 数据 空间 操作 具有 “尽力 而 
为 ”的 特性 。 即 所 提供 的 服务 不 一 定 是 最 优 的 ， 而 是 在 目前 的 能 力 范围 内 所 能 提供 的 最 好 的 。 

3) 数据 类 型 : 个 人 数据 空间 的 数据 来 自 多 个 不 同 的 数据 源 ， 数 据 格式 多 种 多 样 ， 包 合 关 系 表 、 文 本 、 网 页 、XML 数 据 文 
件 、 电 子 邮 件 、 图 像 、 音 频 、 视 频 等 多 种 数据 ;而 在 传统 的 关系 数据 库 中 ， 数 据 源 单 一 ， 数 据 格 式 就 是 关系 表 ， 支 持 的 数据 类 型 
也 是 有 限 的 预定 义 的 数据 类 型 。 

4) 数据 天 系 : 个 人 数据 空间 中 数据 关系 是 基于 对 象 一 级 的 ， 即 只 要 这 种 天 联 对 数据 空间 主体 是 有 用 的 ， 任 何 对 象 之 间 都 可 
以 建立 关联 。 因 此 ， 数 据 对 象 之 间 关 联 是 复杂 、 动 态 、 演 化 的 。 而 传统 的 数据 管理 技术 ， 数 据 关 联 建 立 在 表 一 级 ， 这 种 天 联 往往 
是 稳定 的 ， 而 且 类 型 也 相对 比较 单一 。 

5) 构建 策略 : 传统 数据 库 管理 系统 的 构建 往往 是 一 步 到 位 的 ， 即 通过 分 析 相 应 的 需求 ， 设 计 出 数据 库 模 式 ， 并 在 较 长 时 间 
内 保持 稳定 ， 这 种 方式 的 前 期 成 本 往往 较 大 。 而 个 人 数据 空间 的 构建 是 一 种 “ 即 用 即 付 。 (Pay-as-you-go) 的 方式 ， 在 这 种 方 
式 下 ， 用 户 不 必 提 前 建立 复杂 的 数据 模式 ， 只 有 当 用 户 认为 必要 的 时 候 ， 才 会 将 数据 对 象 保存 到 数据 空间 中 ， 才 会 在 对 象 之 间 建 
立 天 联 。 相 对 于 传统 的 集成 系统 来 说 ， 这 种 数据 管理 方式 前 期 成 本 比较 低 ， 也 更 为 实用 。 


因此 ， 个 人 数据 空间 的 数据 和 操作 都 与 传统 数据 库 不 同 ， 需 要 采用 不 同 技术 。 


[1] M Franklin, A Halevy，D.Maiet.Ftom Databases to Dataspaces: A New Absttaction for Information Management [J .ASM SIGMOD 
Record, 2005, 34 (4) : 27-33. 
DP] 李 玉 坤 ， 孟 小 峰 ， 张 相 於 ， 数 据 空间 技术 研究 []] .软件 学 报 ，2008，19 (8) : 2018-2031. 


2.2.2 ”基于 图 的 数据 空间 模型 


主体 、 数 据 集 、 服 务 是 数据 空间 的 三 个 要 素 。 主 体 是 指数 据 空 间 的 所 有 者 ， 可 以 是 一 个 人 或 一 个 群 组 ， 也 可 以 是 一 个 企业 。 
数据 集 是 与 主体 相关 的 所 有 可 控 数 据 的 集合 ， 其 中 既 包 括 对 象 ， 也 包括 对 象 之 间 的 关系 。 主 体 通 过 服务 对 数据 空间 进行 管理 。 基 
于 此 本 书 作者 提出 了 基于 图 的 个 人 数据 空间 模型 [12]。 


定义 2.1 数据 项 一 个 数据 项 表示 主体 作为 一 个 整体 进行 访问 的 数据 对 象 ， 是 主体 操作 数据 信息 的 基本 单位 。 


例 2.1 对 于 一 个 特定 主体 ， 与 其 相关 的 数据 对 象 都 可 以 看 作 一 个 数据 项 。 当 主体 是 个 人 的 时 候 ， 其 书写 的 文档 、 收 发 的 邮 
件 、 制 作 的 图 片 都 可 以 看 作 数 据 项 ;对 于 一 个 组 织 或 企业 来 说 ， 其 电子 版 的 图 纸 、 文 件 、 通 知 等 都 可 以 看 作 数 据 项 。 


定义 2.2 个 人 数据 空间 个 人 数据 空间 是 一 个 与 特定 主体 相关 的 数据 项 的 集合 。 其 可 以 定义 为 一 个 二 元 组 (N，R) ， 其 中 
N= (OW，SD) ，OW 是 数据 空间 的 主体 ，SD 是 与 主体 有 关 的 数据 项 的 集合 ; R 是 数据 空间 中 数据 项 之 间 关 系 的 集合 。 


例 2.2 ”图 2-1 显 示 了 一 个 简化 的 个 人 数据 空间 示例 Bl， 其 中 OW 表示 数据 空间 主体 ; E1 和 E2 表 示 主 体 的 两 封 邮件 ，E1 表 示 主 
体 新 收 到 的 尚未 阅读 的 邮件 ，E2 表 示 以 前 收 到 的 已 经 阅读 过 的 邮件 ; F1 是 邮件 E2 的 附件 ; P1、P2 和 P3 表 示 主 体 计 算 机 中 的 三 个 
文档 ，P1 和 P3 被 主体 访问 过 ，P1 引 用 了 P3 的 内 容 ，P2 从 来 没有 被 主体 访问 过 ; A1 和 A2 是 文档 P1 的 两 个 作者 。 图 2-1a 显 示 了 用 


户 没有 访问 时 各 数据 项 的 状态 ， 数 据 项 之 间 人 存在 数据 关联， 但 是 数据 项 与 主体 之 间 没有 关联 ; 图 2-1b 显 示 了 用 户 访问 后 数据 项 
的 状态 ， 虚 线 表示 数据 项 与 主体 之 间 具 有 访问 关系 ; 图 2-1c 显 示 了 基于 主体 与 数据 项 之 间 关 系 划 定 的 数据 空间 边界 ， 用 户 访问 
过 的 数据 项 构成 了 个 人 数据 空间 。 
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图 2-1 个 人 数据 空间 示例 
[I] Y Li, X Meng, Y Kou, An Efficient Method for Constructing Personal DataSpace, In Proceedings of the 6th Web Information 
Systems and Applications Conference (WISA 2009) ，2009: 3-8. 
[2] Y Li, X Meng, Reseatch on Personal Dataspace Management [LC] .In Proceedings of the 2nd SIGMOD PhD Workshop on Innovative 
Database Reseatch (IDAR 2008) ,2008: 7-12. 
B] Y Li, X Meng, Y Kou, An Efficient Method for Constructing Personal DataSpace, In Proceedings of the 6th Web Information 


Systems and Applications Conference (WISA 2009) ，2009: 3-8. 


2.3 ”逻辑 模型 


2.3.1 iDM 数 据 模 型 


不 同 于 传统 的 关系 数据 库 ， 个 人 数据 空间 的 数据 信息 有 些 是 以 文件 形式 存在 的 ， 如 XML 文件 、Word 文 件 等 ， 这 些 文件 本 身 
又 包括 众多 的 数据 内 容 ， 如 一 篇 扩展 名 为 DOC 的 论文 可 能 包括 文章 题目 、 摘 要 、 引 言 等 章节 信息 。 如 果 用 户 希望 查询 摘要 部 分 
包含 关键 词 “数据 空间 ”的 文档 ， 就 存在 这 样 的 问题 : 如 何 打破 文件 内 外 的 界限 ， 使 这 些 非 结构 化 的 数据 信息 以 统一 的 模式 进行 
保存 。iDM (iMemex Data Model) MJ 即 是 基于 此 提出 的 数据 模型 ， 其 基本 思想 包括 : 


1) 每 个 数据 对 象 被 描述 为 一 个 资源 视图 ， 不 管 其 是 否 是 结构 化 的 。 

2) 资源 视图 通过 有 向 边 连 接 起 来 ， 这 种 连接 也 是 资源 视图 的 构成 部 分 。 

定义 2.3 资源 视图 资源 视图 Vi 是 一 个 4 元 组 (Ni，T;，Xi，Yi) ，Ni 是 组 件 的 名 称 ，Ti 是 元 组 组 件 ，Xi 是 组 件 内 容 ，Yi 是 一 
组 组 件 的 集合 。 定 义 一 个 资源 视图 Vi 的 每 一 个 组 件 如 下 : 

Ni 是 名 称 组 件 : 是 一 个 字符 事 ， 表 示 资 源 视图 Vi 的 名 称 。 


Ti 是 元 组 组 件 : 是 一 个 二 元 组 (W，T) ，W 指 的 是 一 个 模式 ，T 指 的 是 一 个 符合 W 模 式 的 单一 的 元 组 。 模 式 W= 《a》 


(j=1，2，…， 区 ) 定义 为 一 个 属性 序列 ， 其 中 属性 4 是 W 中 一 个 域 的 名 称 。 元 组 T= “vj》 (j=1，2，…， 区 ) 是 一 个 数据 值 的 序 


列 ， 这 里 wj 是 属性 4 所 在 的 域 Dj 中 的 一 个 元 素 。 


Xi 是 组 件 内 容 : Xi 是 一 串 从 字母 表 》c 中 得 到 的 符号 。Xi 可 能 是 有 限 的 ， 也 可 能 是 无 限 的 。 当 Xi 是 有 限时 ， 它 以 有 限 形式 表示 
为 《c1， 2 Cn> 》 其 中 cjE 2c， j=1， ,1n, 当 其 为 无 穷 时 表示 为 Xi= 《c1， “"', CE> (k—00) 》 Cj € Do; j=1， 3 k, 


a 
Yi 是 组 件 集合 : Yi 是 一 个 二 元 组 (S，Q) ， 其 中 S 是 一 个 资源 视图 集合 ，Q 是 一 个 资源 视图 的 序列 。 
需要 说 明 的 是 : 
1) 如 果 任 何 资源 视图 的 组 件 是 空 的 ， 则 将 n 元 空 集合 表示 为 (”) ， 将 空 序列 表示 为 《 )。 
2) Ni 用 来 表示 资源 视图 的 名 称 。 
3) T 沪 关系 数据 模型 中 的 元 组 有 相似 的 定义 。 一 个 重要 的 不 同 是 模式 W 是 对 每 一 个 元 组 定义 的 ， 而 不 是 对 一 个 集合 的 元 组 
定义 的 。 
4) X 组 件 表示 非 结 构 化 的 内 容 ， 它 是 从 字母 表 中 获取 的 字符 序列 ， 如 文件 内 容 中 的 字符 或 者 XML 文件 节点 。Xi 组 件 可 能 是 
有 限 的 也 可 能 是 无 限 的 。 


5) Yi 组 件 创建 了 一 个 有 向 图 结构 来 连接 有 关 的 视图 。iDM 对 这 个 图 没有 限制 ， 使 得 可 以 使 用 树 、DAG 和 循环 图 来 表示 。 如 
果 资 源 视图 之 间 建 立 连接 是 有 序 的 ， 就 在 序列 Q 中 表示 它们 ， 否 则 就 将 其 放 入 集合 中 。 


下 面 以 个 人 计算 机 中 的 数据 信息 为 例 ， 对 以 上 提 到 的 资源 视图 进行 说 明 。 


例 2.3 ”图 2-2 中 展示 出 了 资源 视图 的 一 个 例子 和 内。 在 这 个 用 树 结构 表示 的 例子 中 ， 顶 层 节 点 是 项 目 ， 其 包含 了 两 个 研究 项 目 
文件 夹 : PIM 和 OLAP。PIM 文 件 夹 下 包含 一 个 名 为 vldb2006.tex 的 LaTex 文 件 、 一 个 名 为 Grant.doc 的 关于 项 目 申请 的 Word 文 
档 。 这 些 文 档 又 包括 一 些 下 层 节点 ， 如 Grant.doc 下 包括 “1.Introduction”、“1.1Research Challenges” 等 ， 图 2-2 中 只 显 
示 了 一 部 分 内 容 。 每 一 个 文档 包含 章节 、 子 章节 的 内 容 。 
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图 2-2 ” 异 构 的 个 人 数据 信息 


可 以 看 出 ， 图 2-2 中 在 文件 内 部 的 图 结构 信息 和 外 部 文件 系统 中 的 分 层 结 构 之 间 有 一 个 隔 立 。 图 2-3 用 有 向 图 展示 了 图 2-2 所 
示 的 例子 在 iDM 中 的 表示 ， 节 点 表示 资源 视图 ， 边 表示 资源 视图 组 中 组 件 的 连接 。 每 一 个 节点 标记 为 资源 视图 的 名 称 。 在 iDM 
中 ， 每 一 个 文件 或 者 文件 夹 在 图 2-3 中 表示 为 一 个 资源 视图 ， 存 储 在 文件 中 的 数据 也 一 致 地 表示 为 资源 视图 。vldb 2006.tex 文 章 
的 文档 种 类 、 标 题 、 摘 要 和 文档 部 分 都 是 资源 视图 ， 它 们 直接 与 vidb2006.tex 资 源 视图 相关 。 对 于 Grant.doc 资 源 视图 也 是 一 样 
的 。 目 前 一 些 办 公 软 件 提供 半 结 构 化 的 或 者 图 结构 的 文档 格式 越 来 越 有 可 能 ， 如 Microsoft Office 2012、Open Office 和 LaTex 
等 ， 这 使 得 编写 拥有 高 质量 资源 视图 的 图 结构 的 内 容 转 换 器 成 为 可 能 。 另 外 ， 结 构 化 抽取 技术 可 以 进一步 提高 从 内 容 组 件 中 抽取 
的 资源 视图 子 图 的 质量 。 
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图 2-3 个 人 信息 构成 的 数据 空间 示例 


资源 视图 的 结构 图 是 数据 的 逻辑 表示 ， 其 不 需要 立刻 实现 ， 而 是 随 着 数据 空间 的 演化 缓慢 建立 。 数 据 也 不 必 从 模型 中 导入 导 


出 ， 而 是 在 模型 中 可 以 自然 地 表示 这 些 数 据 及 其 关系 。 这 与 XML 方法 不 同 ，XML 需 要 在 查询 结果 计算 出 来 之 前 将 整个 数据 物理 
地 表示 为 XML 文档 。 


关注 图 2-2 和 图 2-3 所 表示 的 个 人 信息 及 其 资源 视图 ， 考 虑 PIM 文 件 夹 ， 可 以 将 其 展示 成 一 个 资源 视图 Vp|M= 
{NPIM，TPIM，XPIM，YPIM}。 
其 中 : 


NPIM= ‘PIM' 。 


TpIM= (W，T) ， 其 中 W= (创建 时 间 : 日 期 ， 大 小 : 整 型 ， 最 后 修改 时 间 : 日 期 》， 
54' ,4096, “22/09/200517: 14 ) 


T= ( “19/03/200511: 
，TPIM 组 件 表示 与 PIM 文 件 夹 相 关 的 属性 ， 其 含义 为 PIM 文 件 夹 的 创建 时 间 


为 “19/03/200511: 54”， 文 件 夹 大 小 为 4096， 最 后 修改 日 期 为 “22/09/200517: 14”。 


XPIM=《 )。 
YPIM= (3，Q) , S{Vyldp2006.tex, VGrant.doc, VAIl Projects}, Q=( ) 。 


注意 在 文件 系统 中 ，PIM 文 件 夹 的 孩子 表示 为 与 Vp|M 直 接 相关 的 资源 视图 。 这 些 资源 视图 是 VVidp2006.tex、VGrant.dox、VAIl 
Projects。 资 源 视图 Vvldb2006.tex 和 VGrant.doc 有 与 VpIM 定 义 相 似 的 N 和 TT 组件， 它们 的 N 组 件 与 其 文档 内 容 中 的 资源 视图 相关 
联 ，X 组 件 表示 每 一 个 文件 的 二 进 制 流 。VAlProjects 资 源 视图 的 定义 也 与 VPIM 中 的 定义 相似 ， 除 了 用 Y 组 件 与 文件 夹 Projects 相 关 
联 。 此 处 将 省 略 空 的 资源 视图 组 件 使 上 下 文 更 加 清晰 。 因 此 将 VPIM 表 示 为 VIM={ “PIM”，TPIM，YPIM}。 


iDM 通 过 资源 视图 集合 中 组 件 之 间 的 联系 自然 地 用 图 结构 表示 出 来 。 例 如 ， 图 2-3 中 
Vprojects 了 VPIM 了 VAllProjects 悦 VProjects 住 资源 视图 结构 图 中 形成 了 一 个 环 。 而 且 在 图 2-3 中 ， 资 源 视图 Vpreliminaries 与 视图 
Vdocument 和 视图 Vref 是 直接 相关 的 。iDM 数 据 模型 提供 了 一 种 基于 图 的 异 构 数据 的 统一 表示 方法 ， 使 得 对 数据 空间 中 的 大 规 
模 、 复 杂 、 异 构 的 数据 能 够 进行 统一 管理 。 但 是 如 何 表示 数据 和 主体 之 间 的 关系 ， 仍 是 需要 讨论 的 问题 。 
[1] JP Ditttich，S MAV.iDM: A Unified and Versatile Data Model for Petsonal Dataspace management [C] .In Proceedings.of the 32nd 
Internatlonal Conference.on Very Large Data Bases (VLDB 2006) ，2006: 367-378. 


[2] J-P Ditttich, S MAV.iDM: A Unified and Versatile Data Model for Personal Dataspace management [C| .In Proceedings.of the 32nd 


Internatlonal Conference.on Very Large Data Bases (VLDB 2006) ，2006: 367-378. 


2.3 ”逻辑 模型 


2.3.1 iDM 数 据 模 型 


不 同 于 传统 的 关系 数据 库 ， 个 人 数据 空间 的 数据 信息 有 些 是 以 文件 形式 存在 的 ， 如 XML 文件 、Word 文 件 等 ， 这 些 文件 本 身 
又 包括 众多 的 数据 内 容 ， 如 一 篇 扩展 名 为 DOC 的 论文 可 能 包括 文章 题目 、 摘 要 、 引 言 等 章节 信息 。 如 果 用 户 希望 查询 摘要 部 分 
包含 关键 词 “ 数 据 空间 ”的 文档 ， 就 存在 这 样 的 问题 : 如 何 打破 文件 内 外 的 界限 ， 使 这 些 非 结构 化 的 数据 信息 以 统一 的 模式 进行 
保存 。iDM (iMemex Data Model) 【lJ 即 是 基于 此 提出 的 数据 模型 ， 其 基本 思想 包括 : 

1) 每 个 数据 对 象 被 描述 为 一 个 资源 视图 ， 不 管 其 是 否 是 结构 化 的 。 

2) 资源 视图 通过 有 向 边 连接 起 来 ， 这 种 连接 也 是 资源 视图 的 构成 部 分 。 

定义 2.3 ”资源 视图 资源 视图 Vi 是 一 个 4 元 组 (N;，T,，X;，Y;) ，N; 是 组 件 的 名 称 ， 工 是 元 组 组 件 ，X 是 组 件 内 容 ，Y; 是 一 
组 组 件 的 集合 。 定 义 一 个 资源 视图 Vi 的 每 一 个 组 件 如 下 : 

Ni 是 名 称 组 件 : 是 一 个 字符 囊 ， 表 示 资 源 视图 Vi 的 名 称 。 

Ti 是 元 组 组 件 : 是 一 个 二 元 组 (W，T) ，W 指 的 是 一 个 模式 ，T 指 的 是 一 个 符合 W 模 式 的 单一 的 元 组 。 模 式 W= 《a》 
(j=1，2，…， 区 ) 定义 为 一 个 属性 序列 ， 其 中 属性 4 是 W 中 一 个 域 的 名 称 。 元 组 T= 《vi 》 (j=1，2，…，K) 是 一 个 数据 值 的 序 


列 ， 这 里 wj 是 属性 % 所 在 的 域 Dj 中 的 一 个 元 素 。 


Xi 是 组 件 内 容 : Xi 是 一 串 从 字母 表 >c 中 得 到 的 符号 。Xi 可 能 是 有 限 的 ， 也 可 能 是 无 限 的 。 当 和 是 有 限时 ， 它 以 有 限 形式 表示 
为 《c1， ， Ci 和 其 中 cj € 2c， j=1， 2 n, 当 其 为 无 穷 时 表示 为 Xi= 《c1， ”9 CE> (k—00) ?7 CE De; j=1， < 长 


et 
Yi 是 组 件 集合 : Yi 是 一 个 二 元 组 (S，Q) ， 其 中 S 是 一 个 资源 视图 集合 ，Q 是 一 个 资源 视图 的 序列 。 
需要 说 明 的 是 : 
1) 如 果 任 何 资源 视图 的 组 件 是 空 的 ， 则 将 n 元 空 集合 表示 为 (，) ， 将 空 序列 表示 为 ( 》。 
2) Ni 用 来 表示 资源 视图 的 名 称 。 
3) Ti 与 关系 数据 模型 中 的 元 组 有 相似 的 定义 。 一 个 重要 的 不 同 是 模式 W 是 对 每 一 个 元 组 定义 的 ， 而 不 是 对 一 个 集合 的 元 组 
定义 的 。 

4) X 组 件 表示 非 结构 化 的 内 容 ， 它 是 从 字母 表 中 获取 的 字符 序列 ， 如 文件 内 容 中 的 字符 或 者 XML 文件 节点 。X 组 件 可 能 是 
有 限 的 也 可 能 是 无 限 的 。 


5) Yi 组 件 创建 了 一 个 有 向 图 结构 来 连接 有 关 的 视图 。iDM 对 这 个 图 没有 限制 ， 使 得 可 以 使 用 树 、DAG 和 循环 图 来 表示 。 如 
果 资 源 视图 之 间 建 立 连接 是 有 序 的 ， 就 在 序列 Q 中 表示 它们 ， 否 则 就 将 其 放 入 集合 中 。 


下 面 以 个 人 计算 机 中 的 数据 信息 为 例 ， 对 以 上 提 到 的 资源 视图 进行 说 明 。 


例 2.3 ”图 2-2 中 展示 出 了 资源 视图 的 一 个 例子 由。 在 这 个 用 树 结构 表示 的 例子 中 ， 顶 层 节 点 是 项 目 ， 其 包含 了 两 个 研究 项 目 
文件 夹 : PIM 和 OLAP。PIM 文 件 夹 下 包含 一 个 名 为 vldb2006.tex 的 LaTex 文 件 、 一 个 名 为 Grant.doc 的 关于 项 目 申请 的 Word 文 
档 。 这 些 文 档 又 包括 一 些 下 层 节点 ， 如 Grant.doc 下 包括 “1.Introduction”、“1.1Research Challenges” 等 ， 图 2-2 中 只 显 
示 了 一 部 分 内 容 。 每 一 个 文档 包含 章节 、 子 章节 的 内 容 。 
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图 2-2 ” 异 构 的 个 人 数据 信息 


可 以 看 出 ， 图 2-2 中 在 文件 内 部 的 图 结构 信息 和 外 部 文件 系统 中 的 分 层 结 构 之 间 有 一 个 隔 立 。 图 2-3 用 有 向 图 展示 了 图 2-2 所 
示 的 例子 在 iDM 中 的 表示 ， 节 点 表示 资源 视图 ， 边 表示 资源 视图 组 中 组 件 的 连接 。 每 一 个 节点 标记 为 资源 视图 的 名 称 。 在 iDM 
中 ， 每 一 个 文件 或 者 文件 夹 在 图 2-3 中 表示 为 一 个 资源 视图 ， 存 储 在 文件 中 的 数据 也 一 致 地 表示 为 资源 视图 。vldb 2006.tex 文 章 
的 文档 种 类 、 标 题 、 摘 要 和 文档 部 分 都 是 资源 视图 ， 它 们 直接 与 vidb2006.tex 资 源 视图 相关 。 对 于 Grant.doc 资 源 视图 也 是 一 样 
的 。 目 前 一 些 办 公 软 件 提供 半 结 构 化 的 或 者 图 结构 的 文档 格式 越 来 越 有 可 能 ， 如 Microsoft Office 2012、Open Office 和 LaTex 
等 ， 这 使 得 编写 拥有 高 质量 资源 视图 的 图 结构 的 内 容 转 换 器 成 为 可 能 。 另 外 ， 结 构 化 抽取 技术 可 以 进一步 提高 从 内 容 组 件 中 抽取 
的 资源 视图 子 图 的 质量 。 
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图 2-3 个 人 信息 构成 的 数据 空间 示例 


资源 视图 的 结构 图 是 数据 的 逻辑 表示 ， 其 不 需要 立刻 实现 ， 而 是 随 着 数据 空间 的 演化 缓慢 建立 。 数 据 也 不 必 从 模型 中 导入 导 


出 ， 而 是 在 模型 中 可 以 自然 地 表示 这 些 数 据 及 其 关系 。 这 与 XML 方法 不 同 ，XML 需 要 在 查询 结果 计算 出 来 之 前 将 整个 数据 物理 
地 表示 为 XML 文档 。 


关注 图 2-2 和 图 2-3 所 表示 的 个 人 信息 及 其 资源 视图 ， 考 虑 PIM 文 件 夹 ， 可 以 将 其 展示 成 一 个 资源 视图 Vp|M= 
{NPIM，TPIM，XPIM，YPIM}。 
其 中 : 


NPIM= ‘PIM' 。 


TpIM= (W，T) ， 其 中 W= (创建 时 间 : 日 期 ， 大 小 : 整 型 ， 最 后 修改 时 间 : 日 期 》， 
54' ,4096, “22/09/200517: 14 ) 


T= ( “19/03/200511: 
，TPIM 组 件 表示 与 PIM 文 件 夹 相 关 的 属性 ， 其 含义 为 PIM 文 件 夹 的 创建 时 间 


为 “19/03/200511: 54”， 文 件 夹 大 小 为 4096， 最 后 修改 日 期 为 “22/09/200517: 14”。 


XPIM=《 )。 
YPIM= (3，Q) , S{Vyldb2006.tex, VGrant.doc, VAIl Projects}, Q=( ) 。 


注意 在 文件 系统 中 ，PIM 文 件 夹 的 孩子 表示 为 与 Vp|M 直 接 相关 的 资源 视图 。 这 些 资源 视图 是 VVidp2006.tex、VGrant.dox、VAIl 
Projects。 资 源 视图 Vvldb2006.tex 和 VGrant.doc 有 与 VpIM 定 义 相 似 的 N 和 TT 组件， 它们 的 N 组 件 与 其 文档 内 容 中 的 资源 视图 相关 
联 ，X 组 件 表示 每 一 个 文件 的 二 进 制 流 。VAlProjects 资 源 视图 的 定义 也 与 VPIM 中 的 定义 相似 ， 除 了 用 Y 组 件 与 文件 夹 Projects 相 关 
联 。 此 处 将 省 略 空 的 资源 视图 组 件 使 上 下 文 更 加 清晰 。 因 此 将 VPIM 表 示 为 VIM={ “PIM”，TPIM，YPIM}。 


iDM 通 过 资源 视图 集合 中 组 件 之 间 的 联系 自然 地 用 图 结构 表示 出 来 。 例 如 ， 图 2-3 中 
VPprojects 司 VPIM 了 VAllprojects 怀 Vprojects 住 资源 视图 结构 图 中 形成 了 一 个 环 。 而 且 在 图 2-3 中 ， 资 源 视图 Vpreliminaries 与 视图 
Vdocument 和 视图 Vref 是 直接 相关 的 。iDM 数 据 模 型 提供 了 一 种 基于 图 的 异 构 数据 的 统一 表示 方法 ， 使 得 对 数据 空间 中 的 大 规 
模 、 复 杂 、 异 构 的 数据 能 够 进行 统一 管理 。 但 是 如 何 表示 数据 和 主体 之 间 的 关系 ， 仍 是 需要 讨论 的 问题 。 
[1] J-P Dittich，S MAV.iDM: A Unified and Versatile Data Model for Personal Dataspace management [C] .In Proceedings.of the 32nd 
Internatlonal Conference.on Very Large Data Bases (VLDB 2006) ，2006: 367-378. 


[2] JP Dittiich, S MAV.iDM: A Unified and Versatile Data Model for Personal Dataspace management [C] .In Proceedings.of the 32nd 


Internatlonal Conference.on Very Large Data Bases (VLDB 2006) ，2006: 367-378. 


2.3.2 ”RDF 模 型 


传统 数据 库 以 表 为 存储 单位 ， 采 用 基于 行 的 数据 存储 技术 ， 其 优点 是 便于 基于 行 的 查询 与 更 新 操作 。 这 种 数据 组 织 方式 对 于 
数据 空间 并 不 适用 ， 一 方面 会 由 于 表 内 容 的 稀疏 造成 存储 空间 的 浪费 ， 由 此 产生 数据 读 取 开 销 的 增 大 ; 另 一 方面 当 新 的 数据 项 不 
能 匹配 已 有 数据 模式 的 时 候 ， 需 要 对 数据 模式 进行 调整 ， 这 样 会 造成 数据 人 存储 模式 的 调整 和 应 用 软件 的 修改 ， 从 而 增加 数据 操作 
的 成 本 。 针 对 这 种 复杂 多 变 的 数据 存储 ， 有 许多 研究 工作 。1985 年 ，G.P.Copeland 和 S.Khoshafian[1] 就 提出 了 一 种 垂直 的 数据 
存储 策略 ， 即 用 三 元 组 进行 数据 的 存储 。 三 元 组 的 内 容 分 别 是 〈 对 象 ID， 属 性 名 ， 属 性 值 》。 这 种 数据 人 存储 方式 最 大 的 优点 就 
是 能 够 适应 数据 模式 频繁 变化 的 需要 ， 数 据 项 属性 的 增加 不 再 引起 数据 模式 的 变化 。 这 种 数据 组 织 方式 在 电子 商务 领域 得 到 了 成 
功 的 应 用 加 。 

资源 描述 框架 (Resource Description Framework，RDF) 基于 三 元 组 ， 是 用 于 描述 网 络 资源 的 W3C 标 准 ， 是 一 个 用 于 表 
达 关 于 万 维 网 (World Wide Web) 上 资源 信息 的 语言 。 其 基本 概念 如 下 : 


资源 (Resource) : 所 有 在 Web 上 被 命名 、 具 有 URI (Unified Resource ldentifier， 统 一 资源 描述 符 ) 的 事物 ， 如 网 页 、 
XML 文档 中 的 元 素 等 。 


描述 (Description) : 对 资源 属性 (Property) 的 一 个 陈述 (statement) ， 以 表明 资源 的 特性 或 者 资源 之 间 的 联系 。 
框架 (Framework) : 与 被 描述 资源 无 关 的 通用 模型 ， 以 包容 和 管理 资源 的 多 样 性 、 不 一 致 性 和 重复 性 。 


综合 起 来 ，RDF 就 是 定义 了 一 种 通用 的 框架 ， 即 资源 属性 值 的 三 元 组 ， 以 不 变 应 万 变 来 描述 Web 上 的 各 种 资源 ， 比 如 Web 
页 面 的 标题 、 作 者 和 修改 时 间 ， 以 及 Web 文 档 的 版 权 和 许可 信息 、 某 个 共享 资源 的 可 用 计划 表 等 。 然 而 ,将 “Web 资 源 ” 这 一 


念 一 般 化 后 ，RDF 可 被 用 于 表达 关于 任何 可 在 Web 上 被 标识 的 事物 的 信息 ， 比 如 关于 一 个 在 线 购 物 机 构 的 某 项 产品 的 信息 
(例如 天 于 规格 、 价 格 和 可 用 性 信息 ) 。 


简单 而 言 ， 一 个 RDF 文 件 包含 多 个 资源 描述 ， 而 一 个 资源 描述 由 多 条 语句 构成 ， 一 条 语句 是 由 资源 、 属 性 类 型 、 属 性 值 构成 
的 三 元 组 ， 表 示 资 源 具有 的 一 个 属性 。 资 源 描 述 中 的 语句 可 以 对 应 于 自然 语言 的 语句 ， 资 源 对 应 于 自然 语言 中 的 主语 ， 属 性 类 型 
对 应 于 谓语 ， 属 性 值 对 应 于 宾语 ， 在 RDF 术 语 中 称 其 分 别 为 主语 、 谓 词 、 宾 语 。 由 于 自然 语言 的 语句 可 以 是 被 动 句 ， 因 此 前 面 的 
简单 对 应 仅仅 是 一 个 概念 上 的 类 比 。RDF 使 用 Web 标 识 符 来 标识 事物 ， 并 通过 属性 和 属性 值 来 描述 资源 。 对 资源 、 属 性 和 属性 
值 的 解释 如 下 : 


. 资源 是 可 拥有 URI 的 任何 事物 ， 比 如 “http: /| www.w3school.com.cn/rdf”。 





. 属性 是 拥有 名 称 的 资源 ， 比 如 “authot” 或 “homepage” . 
* 属性 值 是 某 个 属性 的 值 ， 比 如 “David” 或 “http: |/ www.w3school.com.cn”。 
请 注意 一 个 属性 值 可 以 是 另外 一 个 资源 。 


下 面 的 RDF 文 档 可 描述 资源 “http:ll1www.w3school.com.cn/rdf”: 


上 面 是 一 个 简化 的 例子 ， 命 名 空间 被 忽略 了 。 资 源 、 属 性 和 属性 值 的 组 合 可 形成 一 个 陈述 (被 称 为 陈述 的 主体 、 谓 语 和 客 
体 ) 。 请 看 一 些 陈述 的 具体 例子 ， 以 加 深 理解 : 


陈述 1: “The author of http:llwww.w3school.com.cn/rdf is David.” 

陈述 的 主体 是 : http:I1www.w3school.com.cn/rdf 

谓语 是 : author 

客体 是 : David 

陈述 2: “The homepage of http:ll www.w3school.com.cn/rdf is http:llwww.w3school.com.cn.” 
陈述 的 主体 是 : http:I1lwww.w3school.com.cn/rdf 

谓语 是 : homepage 

客体 是 : http:llwww.w3school.com.cn。 


以 下 是 一 个 RDF 文 档 的 其 中 几 行 : 


此 文档 的 第 一 行 是 XML 声明 。 这 个 XML 声明 之 后 是 RDF 文 档 的 根 元 素 〈rdf: RDF) 。xmlns: rdf 命 名 空间 规定 带 有 前 缀 rdf 
的 元 素来 自命 名 空间 “http:l1 www.w3.org/1999/02/22-rdf-syntax-ns#”，xmlns: cd 命名 空间 规定 了 带 有 前 缀 cd 的 元 素来 
命名 空间 “http:llwww.recshop.fake/cd#"” 。 《rdf: Description》 元 素 包 含 了 对 被 rdf: about 属 性 标识 的 资源 的 描述 。 


[1] GP Copeland, S Khoshafian.A Decomposition Stotage Model LC] .In SIGMOD, 1985. 


[2] R Agrawal, A Somani, Y Xu, Storage and Quetying of E-Commerce Data, In VLDB, 2001. 


2.3.3 ”基于 四 元 组 的 模型 


基于 三 元 组 的 数据 描述 方法 可 以 较 好 地 适应 个 人 数据 空间 “从 数据 到 模式 ”的 特征 ， 但 是 一 个 实体 的 属性 往往 具有 时 间 特 
征 ， 比 如 一 个 人 的 住所 可 能 随 着 时 间 变 化 是 不 一 样 的 ， 利 用 基于 三 元 组 的 数据 模式 不 能 有 效 地 描述 实体 属性 的 时 间 特 征 。T-DSP 
模型 是 基于 四 元 组 的 数据 空间 概念 模型 [1]。 其 核心 思想 包括 : 现实 世界 中 的 任何 一 个 实体 都 可 以 表示 为 一 个 四 元 组 
(1，A，V,T) 的 集合 ， 其 中 | 表示 该 实体 在 现实 世界 中 的 唯一 标识 符 ;A 表示 该 实体 的 属性 的 名 字 ; V 表 示 该 实体 属性 A 的 取 
值 ; T 是 一 个 时 间 范 围 ， 表 示 该 实体 属性 A 取 值 为 V 的 时 间 。 


以 下 是 几 个 实例 。 


例 2.4 一 个 学 生 的 姓名 是 刘刚 ， 性 别 为 男 ，2015 年 11 月 1 日 入 党 ， 出 生日 期 为 1990 年 10 月 2 日 。 则 用 T-DSP 模 型 表述 如 
下 。 


(姓名 ， 刘 刚 ， (1990.10.2，-) ) ， 

(性 别 ， 男 ， (1990.10.2，-) ) ， 

(政治 面目 ， 群 众 ， (1990.10.2，2015.10.31) ) 
(政治 面目 ， 党 员 ， (2015.11.1，-) ) 


其 中 ， 时 间 属 性 为 “-” 表示 目前 的 时 间 。 比 如 上 述 例子 中 表示 刘刚 在 2015 年 10 月 31 日 之 前 政治 面目 为 群众 ， 之 后 到 目前 为 
止 其 政治 面目 为 党 员 。 


例 2.5 ”一 门 课程 的 名 字 是 数据 库 ， 开 课 单位 为 天 津 理工 大 学 计算 机 学 院 ，2010 年 之 前 该 课程 的 学 分 为 3 学 分 ， 其 后 改 为 4 学 
分 。 则 用 T-DSP 模 型 表述 如 下 。 


(名 称 ， 数 据 库 系统 ，-) ， 

(开课 单位 ， 天 津 理工 大 学 计算 机 学 院 ，-) ， 
(学 分 ，3， (2000.1.1，2000.12.30) ) 
(学 分 ，4， (2010.1.1，-) ) 


例 2.6 一 门 选课 记录 的 信息 如 下 ， 学 生 实 体 为 E00001， 所 选课 程 为 E00002， 考 试 时 间 为 2012 年 7 月 1 日 ， 课 程 成 绩 为 50 
分 ， 第 二 次 考试 时 间 为 2013 年 6 月 28 日 ， 考 试 成 绩 为 70。 则 用 T-DSP 模 型 表述 如 下 。 


(学 生 ，E00001，-) ， 

(课程 ，E00002，-) ， 

(成 绩 ，50， (2012.7.1，2013.6.27) ) 

(成 绩 ，70， (2013.6.28，-) ) 
T-DSP 模 型 具有 以 下 特点 : 

1) 具有 关系 数据 模型 同样 的 表达 能 力 。 

关系 模型 能 够 表达 的 关系 模式 都 能 在 T-DSP 中 进行 表达 。 
2) T-DSP 具 有 更 高 的 数据 独立 性 。 


在 传统 的 DBMSs 中 ， 数 据 的 逻辑 独立 性 是 靠 视图 机 制 来 实现 的 ， 然 而 视图 是 建立 在 固定 模式 的 数据 表 之 上 的 ， 使 得 这 种 数据 
独立 性 具有 很 大 的 局 限 性 ， 当 需要 访问 的 数据 模式 有 新 的 属性 添加 进去 以 后 ， 这 种 机 制 就 不 能 够 再 保证 数据 的 独立 性 。 


3) 可 以 支持 “从 数据 到 模式 ”的 管理 方式 。 
4) 可 以 更 好 地 表达 实体 的 时 间 属 性 。 


[1] 李 玉 坤 ， 任 标 ， 驱 喜 燕 ， 等 .个 人 数据 管理 技术 研究 []] .计算 机 科学 与 探索 ，2014 (11) : 1281-1295. 


2.4 面向 主体 的 数据 模型 


2.4.1 核心 数据 空间 
个 人 数据 空间 是 与 主体 相关 的 数据 项 的 集合 。 这 就 产生 了 以 下 两 个 基本 问题 。 
1 如 何 界定 数据 和 主体 的 相关 性 


这 一 问题 的 本 质 是 如 何 定义 数据 空间 的 边界 。 


基于 数据 项 与 主体 的 天 系 可 以 将 公共 数据 空间 中 的 数据 对 象 分 为 三 类 : @@ 主 体 没 有 访问 过 ， 并 且 在 可 以 预见 的 时 间 内 不 可 能 
访问 的 数据 项 ， 如 一 本 化 学 类 的 专业 论文 对 于 一 个 学 习 中 文 的 学 生 应 该 属于 这 一 类 ; @ 没 有 访问 过 ， 但 未 来 很 可 能 被 访问 的 数据 
项 ， 如 一 篇 刚 发 表 的 天 于 数据 空间 的 研究 论文 对 于 一 个 数据 空间 领域 的 研究 者 属于 这 一 类 ; @@ 用 户 访问 过 的 数据 项 ， 包 括 自己 生 
成 的 文档 、 收 发 的 邮件 、 浏 览 的 网 页 等 。 

显然 ， 属 于 第 一 种 情况 的 数据 项 不 属于 数据 空间 需要 管理 的 范畴 ， 对 于 第 二 种 情况 ， 用 户 并 不 知道 其 存在 性 ， 需 要 依靠 
Web 搜 索 等 工具 进行 查找 访问 。 从 这 个 角度 进 ， 第 二 类 数据 项 也 不 应 当 属于 主体 数据 空间 。 属 于 第 三 种 情况 的 数据 项 显然 应 当 
属于 数据 空间 管理 的 范畴 。 


2. 如 何 对 相关 数据 进行 分 类 组 织 
确定 了 数据 空间 的 边界 ， 那 么 如 何 对 数据 空间 的 数据 对 象 进行 分 类 ”这 就 要 考虑 主体 对 数据 的 访问 特点 。 
通过 对 用 户 的 访问 行为 模式 进行 观察 ， 有 以 下 发 现 : 
发 现 一 : 用 户 对 数据 信息 的 访问 大 部 分 是 “再 访问 ”。 


这 一 观察 与 人 们 的 日 常 经 验 相符 合 ， 也 得 到 了 相关 工作 的 证 实 。 人 们 对 个 人 数据 空间 的 访问 大 部 分 都 是 “基于 确定 或 不 确定 
线索 的 再 访问 ”[11IB]。 这 一 结论 说 明 ， 在 数据 空间 中 ， 人 们 保存 数据 文件 的 目的 大 都 是 为 了 将 来 对 它们 的 重新 使 用 。 基 于 这 一 
结论 ， 如 果 能 够 将 用 户 访问 过 的 数据 信息 集中 起 来 ， 并 基于 用 户 访问 模式 区 别 对 待 ， 将 会 大 大 提高 “再 访问 ”操作 的 效率 ， 从 而 
提高 总 的 查询 效率 。 


发 现 二 : 用 户 经 常 需要 基于 若干 模糊 的 记忆 线索 查找 访问 过 的 数据 对 象 。 


当 查 找 一 个 数据 对 象 的 时 候 ， 用 户 往往 能 够 回忆 起 铝 干 不 同 的 线索 ， 如 时 间 信息 、 相 关 任 务 或 事件 、 关 键 字 、 数 据 产 生 者 、 
存储 位 置 等 。 这 些 线索 有 时 是 模糊 的 、 不 确定 的 ， 而 且 用 户 有 时 需要 将 多 个 模糊 的 线索 组 合 起 来 进行 查询 。 这 一 发 现 与 人 们 的 经 
验 是 一 致 的 ， 而 且 也 得 到 了 相关 工作 的 证 实 ， 但 是 目前 的 查询 技术 不 能 有 效 地 支持 这 种 查询 。 





因此 ， 数 据 空 间 的 组 织 和 分 类 必须 符合 主体 的 访问 规律 ， 这 样 才能 提高 主体 对 数据 空间 的 访问 效率 。 核 心 数据 空间 的 概 
念 内 即 产生 于 这 样 的 背景 。 

定义 2.4 核心 数据 空间 ”核心 数据 空间 (Core Space，CS) 是 主体 曾经 访问 过 的 数据 对 象 集合 。 其 被 描述 为 一 个 多 维 的 空 
间 ， 在 该 空间 中 每 一 点 表示 一 个 数据 项 集合 。 核 心 数据 空间 被 描述 为 n 维 空间 CS (X1; X2; …; X。) ， 或 简单 地 表示 为 CS， 其 中 
Xi 是 坐标 轴 的 名 称 ，Xi= (Ci，Cp，…，Cin) 表示 一 个 坐标 轴 上 的 坐标 ，Ci 表 示 一 个 坐标 轴 上 的 坐标 值 。 一 个 坐标 值 C 表 示 一 类 
数据 资源 ， 描 述 为 R (C) 。 


由 定义 可 知 ， 核 心 数据 空间 具有 以 下 特征 : @ 从 内 容 上 ， 核 心 数据 空间 只 包括 与 主体 相关 的 数据 对 象 ，@ 核 心 数据 空间 不 是 
一 个 无 序 的 数据 集合 ， 而 是 数据 资源 的 分 类 视图 ， 核 心 数据 空间 中 每 个 节点 可 以 被 映射 到 一 类 数据 资源 的 集合 ;@ 核 心 数据 空间 
的 每 个 坐标 轴 上 的 坐标 ， 不 仅 可 以 是 一 个 特定 的 值 ， 也 可 以 是 一 个 树 状 的 分 类 结构 。 

例 2.7 ”图 2-4 显 示 了 一 个 核心 数据 空间 示例 PersonalCS。 其 中 有 两 个 数据 维 ，X1 是 数据 类 型 ，X2 是 数据 存储 位 置 。X1= 
{PDF，DOC, VSD,，JPG}，X2={C: ，D: ，E: ，F: }。 可 以 看 出 ， 在 该 核心 数据 空间 中 ， 点 P 表 示 在 驱动 器 “D: ”上 的 所 有 
类 型 为 PDF 的 文件 集合 ;点 Q 表 示 驱 动 器 “E: ”上 的 所 有 类 型 为 JPG 的 文件 集合 。 当 然 这 只 是 一 个 简单 的 示例 ， 实 际 的 核心 数 
据 空间 要 比 它 复杂 得 多 ， 会 包括 更 多 的 坐标 轴 ， 每 个 坐标 轴 也 会 有 更 多 的 坐标 值 ， 而 且 每 个 坐标 值 (如 驱动 器 D: ) 也 可 以 是 一 


个 分 类 树 。 
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图 2-4 核心 数据 空间 示例 


核心 数据 空间 是 依赖 主体 的 ， 因 此 这 种 基于 主体 特征 的 分 类 往往 是 一 种 模糊 的 分 类 ， 具 体 表现 在 : @ 数 据 对 象 可 能 属于 若干 
个 不 同 的 类 别 。 例 如 ， 一 个 文件 可 能 与 两 个 不 同 的 任务 有 关 ; 一 个 文档 可 能 关联 到 多 个 不 同 的 关键 字 等 。@ 需 要 提供 一 种 更 加 简 
洁 的 查询 接口 。 因 此 需要 基于 主体 特征 设计 更 加 灵活 简洁 的 查询 接口 。 

从 以 上 核心 数据 空间 的 定义 ， 可 以 看 出 其 具有 以 下 特征 : 

1) 主体 依赖 性 。 由 于 不 同 的 主体 往往 具有 不 同 的 特征 ， 因 此 不 同 主体 的 核心 数据 空间 可 能 包含 不 同 的 坐标 轴 和 坐标 值 。 

2) 可 扩展 性 。 在 核心 数据 空间 模型 中 ， 坐 标 轴 和 坐标 值 可 以 比较 容易 地 进行 扩展 ， 随 着 用 户 需求 的 改变 ， 新 的 坐标 轴 和 坐 
标 值 会 及 时 地 添加 到 核心 数据 空间 中 。 

3) 演化 性 。 与 传统 数据 库 不 同 ， 核 心 数据 空间 的 构建 和 更 新 是 一 个 演化 的 过 程 。 基 于 主体 行为 ， 新 的 数据 项 会 及 时 地 添加 
到 核心 数据 空间 中 。 

核心 数据 空间 的 数据 操作 主要 包括 数据 模式 操作 和 数据 操作 。 

1) 数据 模式 操作 。 数 据 模 式 操作 包括 核心 数据 空间 建立 、 添 加 新 的 坐标 轴 、 更 新 和 删除 坐标 轴 、 更 新 和 删除 坐标 轴 的 分 类 
项 。 


- 核心 数据 空间 的 建立 : CreateCS (CS_name) 


. 添加 一 个 新 的 坐标 轴 : ADD (CS_name, X\C) 


- 更 新 坐标 轴 : ALTER (CS_name, 义 ，YY) 

“ 删除 坐标 轴 : DROP (CS_name，X) 

. 更 新 坐标 轴 的 分 类 项 : ALTER (XNC，XND) 

“ 删除 坐标 轴 的 分 类 项 : DROP (CS_name，XNC) 


例 2.8 利用 上 述 语句 建立 图 2-4 所 示 的 数据 空间 。 


例 2.9 在 例 2.8 所 示 的 核心 数据 空间 中 增加 数据 类 型 PPT， 删 除 类 型 JPG。 


2) 数据 的 修改 。 

* 添加 一 个 数据 对 象 : INSERT (CS_name，Object_ID) 

. 删除 一 个 数据 对 象 : DELETE (CS_name，Object_ID) 
设 定数 据 对 象 的 属性 : SET (CS_name，Object_ ID ，XNC) 


例 2.10 ”在 例 2.8 所 示 的 核心 数据 空间 中 增加 数据 对 象 ID001， 其 类 型 为 PPT， 人 存放 位 置 为 “D: ”。 


3) 数据 查询 。 查 询 满足 条 件 F 的 数据 对 象 : SELECT (CS_name, F) ， 这 里 F 是 一 个 逻辑 表达 式 ， 其 可 以 由 子 表达 式 组 
成 ， 子 表达 式 通 过 三 个 操作 符 (并 、 交 、 非 ) 相连 接 ， 分 别 表示 为 ^、Y、 ~ 。 最 简单 的 逻辑 表达 式 表示 为 “Xi\C”， 这 里 Xx 下 


示 CS 的 坐标 轴 名 称 ，C 表 示 X 坐 标 轴 上 的 坐标 值 。 


以 图 2-4 中 的 核心 数据 空间 为 例 ， 点 P 表 示 一 个 子 空间 ， 将 其 表示 为 SELECT (PersonalCS，F) ， 这 里 
F=type\PDFAplace\D: 。 
例 2.11 下 面 给 出 了 三 个 关于 查询 操作 的 例子 。 


1) SELECT (PersonalCS，type\PDF) 表示 一 个 子 空间 ， 其 包含 数据 空间 中 所 有 类 型 为 PDF 的 数据 文件 。 其 结果 如 图 2-5a 
所 示 。 


2) SELECT (PersonalCS, typeJPGA (place\D: vplace\E: ) ) 表示 一 个 子 空间 ， 其 包含 数据 空间 中 所 有 类 型 为 JPG 且 
存放 在 “D: ”或 “E: ”的 数据 文件 。 其 结果 如 图 2-5b 所 示 。 


3) SELECT (PersonalCS, type\JPGvtype\VSD) ^ (place\D: vplace\E: ) 表示 一 个 子 空间 ， 其 包含 数据 空间 中 所 有 
类 型 为 JPG 或 VSD， 且 存放 在 “D: ”或 “E: ”的 数据 文件 。 其 结果 如 图 2-5c 所 示 。 
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2.4 面向 主体 的 数据 模型 


2.4.1 核心 数据 空间 


个 人 数据 空间 是 与 主体 相关 的 数据 项 的 集合 。 这 就 产生 了 以 下 两 个 基本 问题 。 


1. 如 何 界定 数据 和 主体 的 相关 性 


这 一 问题 的 本 质 是 如 何 定义 数据 空间 的 边界 。 


基于 数据 项 与 主体 的 天 系 可 以 将 公共 数据 空间 中 的 数据 对 象 分 为 三 类 : @@ 主 体 没 有 访问 过 ， 并 且 在 可 以 预见 的 时 间 内 不 可 能 
访问 的 数据 项 ， 如 一 本 化 学 类 的 专业 论文 对 于 一 个 学 习 中 文 的 学 生 应 该 属于 这 一 类 ; @ 没 有 访问 过 ， 但 未 来 很 可 能 被 访问 的 数据 
项 ， 如 一 篇 刚 发 表 的 天 于 数据 空间 的 研究 论文 对 于 一 个 数据 空间 领域 的 研究 者 属于 这 一 类 ; @@ 用 户 访问 过 的 数据 项 ， 包 括 自己 生 
成 的 文档 、 收 发 的 邮件 、 浏 览 的 网 页 等 。 

显然 ， 属 于 第 一 种 情况 的 数据 项 不 属于 数据 空间 需要 管理 的 范畴 ， 对 于 第 二 种 情况 ， 用 户 并 不 知道 其 存在 性 ， 需 要 依靠 
Web 搜 索 等 工具 进行 查找 访问 。 从 这 个 角度 进 ， 第 二 类 数据 项 也 不 应 当 属于 主体 数据 空间 。 属 于 第 三 种 情况 的 数据 项 显然 应 当 
属于 数据 空间 管理 的 范畴 。 


2. 如 何 对 相关 数据 进行 分 类 组 织 
确定 了 数据 空间 的 边界 ， 那 么 如 何 对 数据 空间 的 数据 对 象 进行 分 类 ? 这 就 要 考虑 主体 对 数据 的 访问 特点 。 
通过 对 用 户 的 访问 行为 模式 进行 观察 ， 有 以 下 发 现 : 
发 现 一 : 用 户 对 数据 信息 的 访问 大 部 分 是 “再 访问 ”。 


这 一 观察 与 人 们 的 日 常 经 验 相 符合 ， 也 得 到 了 相关 工作 的 证 实 。 人 们 对 个 人 数据 空间 的 访问 大 部 分 都 是 “基于 确定 或 不 确定 
线索 的 再 访问 ”[IB]。 这 一 结论 说 明 ， 在 数据 空间 中 ， 人 们 保存 数据 文件 的 目的 大 都 是 为 了 将 来 对 它们 的 重新 使 用 。 基 于 这 一 
结论 ， 如 果 能 够 将 用 户 访问 过 的 数据 信息 集中 起 来 ， 并 基于 用 户 访问 模式 区 别 对 待 ， 将 会 大 大 提高 “再 访问 ”操作 的 效率 ， 从 而 
提高 总 的 查询 效率 。 


发 现 二 : 用 户 经 常 需要 基于 若干 模糊 的 记忆 线索 查找 访问 过 的 数据 对 象 。 


当 查 找 一 个 数据 对 象 的 时 人 息 ， 用 户 往 往 能 够 回忆 起 若干 不 同 的 线索 ， 如 时 间 人 信息、 相关 任务 或 事件 、 关 键 字 、 数 据 产生 者 、 
存储 位 置 等 。 这 些 线索 有 时 是 模糊 的 、 不 确定 的 ， 而 且 用 户 有 时 需要 将 多 个 模糊 的 线索 组 合 起 来 进行 查询 。 这 一 发 现 与 人 们 的 经 
验 是 一 致 的 ， 而 且 也 得 到 了 相关 工作 的 证 实 ， 但 是 目前 的 查询 技术 不 能 有 效 地 支持 这 种 查询 。 





因此 ， 数 据 空间 的 组 织 和 分 类 必须 符合 主体 的 访问 规律 ， 这 样 才能 提高 主体 对 数据 空间 的 访问 效率 。 核 心 数据 空间 的 概 
念 四 即 产 生 于 这 样 的 背景 。 

定义 2.4 ”核心 数据 空间 ”核心 数据 空间 (Core Space，CS) 是 主体 曾经 访问 过 的 数据 对 象 集合 。 其 被 描述 为 一 个 多 维 的 空 
间 ， 在 该 空间 中 每 一 点 表示 一 个 数据 项 集合 。 核 心 数据 空间 被 描述 为 n 维 空间 CS (XI; Xs; …; Xs。) ， 或 简单 地 表示 为 CS， 其 中 
天 是 举 标 轴 的 名 称 ，Xij= (CH，Cp，…，Cin) 表示 一 个 坐标 轴 上 的 坐标 ，Ci 表 示 一 个 坐标 轴 上 的 坐标 值 。 一 个 坐标 值 C 表 示 一 类 
数据 资源 ， 描 述 为 R (C) 。 

由 定义 可 知 ， 核 心 数据 空间 具有 以 下 特征 : @ 从 内 容 上 ， 核 心 数据 空间 只 包括 与 主体 相关 的 数据 对 象 ; @ 核 心 数 据 空 间 不 是 
一 个 无 序 的 数据 集合 ， 而 是 数据 资源 的 分 类 视图 ， 核 心 数据 空间 中 每 个 节点 可 以 被 映射 到 一 类 数据 资源 的 集合 ，@@ 核 心 数据 空间 
的 每 个 坐标 轴 上 的 坐标 ， 不 仅 可 以 是 一 个 特定 的 值 ， 也 可 以 是 一 个 树 状 的 分 类 结构 。 


例 2.7 图 2-4 显 示 了 一 个 核心 数据 空间 示例 PersonalCS。 其 中 有 两 个 数据 维 ，X1 是 数据 类 型 ，X2 是 数据 存储 位 置 。X1= 


{PDF,DOC, VSD, JPG}, X2={C: ，D: ，E: ，F: }。 可 以 看 出 ， 在 该 核心 数据 空间 中 ， 点 P 表 示 在 驱动 器 “D: ”上 的 所 有 
类 型 为 PDF 的 文件 集合 ;点 Q 表 示 驱 动 器 “E: ”上 的 所 有 类 型 为 JPG 的 文件 集合 。 当 然 这 只 是 一 个 简单 的 示例 ， 实 际 的 核心 数 


据 空间 要 比 它 复杂 得 多 ， 会 包括 更 多 的 坐标 轴 ， 每 个 坐标 轴 也 会 有 更 多 的 坐标 值 ， 而 且 每 个 坐标 值 (如 驱动 器 D: ) 也 可 以 是 一 


个 分 类 树 。 
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核心 数据 空间 是 依赖 主体 的 ， 因 此 这 种 基于 主体 特征 的 分 类 往往 是 一 种 模糊 的 分 类 ， 具 体 表现 在 : @ 数 据 对 象 可 能 属于 若干 
个 不 同 的 类 别 。 例 如 ， 一 个 文件 可 能 与 两 个 不 同 的 任务 有 关 ; 一 个 文档 可 能 关联 到 多 个 不 同 的 关键 字 等 。@ 需 要 提供 一 种 更 加 简 
洁 的 查询 接口 。 因 此 需要 基于 主体 特征 设计 更 加 灵活 简洁 的 查询 接口 。 


从 以 上 核心 数据 空间 的 定义 ， 可 以 看 出 其 具有 以 下 特征 : 
1) 主体 依赖 性 。 由 于 不 同 的 主体 往往 具有 不 同 的 特征 ， 因 此 不 同 主体 的 核心 数据 空间 可 能 包含 不 同 的 坐标 轴 和 坐标 值 。 


2) 可 扩展 性 。 在 核心 数据 空间 模型 中 ， 坐 标 轴 和 坐标 值 可 以 比较 容易 地 进行 扩展 ， 随 着 用 户 需求 的 改变 ， 新 的 坐标 轴 和 坐 
标 值 会 及 时 地 添加 到 核心 数据 空间 中 。 


3) 演化 性 。 与 传统 数据 库 不 同 ， 核 心 数据 空间 的 构建 和 更 新 是 一 个 演化 的 过 程 。 基 于 主体 行为 ， 新 的 数据 项 会 及 时 地 添加 
到 核心 数据 空间 中 。 


核心 数据 空间 的 数据 操作 主要 包括 数据 模式 操作 和 数据 操作 。 


1) 数据 模式 操作 。 数 据 模 式 操作 包括 核心 数据 空间 建立 、 添 加 新 的 坐标 轴 、 更 新 和 删除 坐标 轴 、 更 新 和 删除 坐标 轴 的 分 类 
项 。 


. 核心 数据 空间 的 建立 : CreateCS (CS_name) 

. 添加 一 个 新 的 坐标 轴 : ADD (CS_name，XNC) 
. 更 新 坐标 轴 : ALTER (CS_name, 义 ,， YY) 

“ 删除 坐标 轴 : DROP (CS_name，X) 

. 更 新 坐标 轴 的 分 类 项 : ALTER (XNC，XND) 

. 删除 坐标 轴 的 分 类 项 : DROP (CS_name，XNC) 


例 2.8 利用 上 述 语句 建立 图 2-4 所 示 的 数据 空间 。 


例 2.9 在 例 2.8 所 示 的 核心 数据 空间 中 增加 数据 类 型 PPT， 删 除 类 型 JPG。 


2) 数据 的 修改 。 

. 添加 一 个 数据 对 象 : INSERT (CS_name，Object_ID) 

. 删除 一 个 数据 对 象 : DELETE (CS_name，Object_ID) 
设 定数 据 对 象 的 属性 : SET (CS_name，Object_ ID ，XNC) 


例 2.10 ”在 例 2.8 所 示 的 核心 数据 空间 中 增加 数据 对 象 ID001， 其 类 型 为 PPT， 人 存放 位 置 为 “D: ”。 


3) 数据 查询 。 查 询 满足 条 件 F 的 数据 对 象 : SELECT (CS_name, F) ， 这 里 F 是 一 个 逻辑 表达 式 ， 其 可 以 由 子 表达 式 组 
成 ， 子 表达 式 通 过 三 个 操作 符 (并 、 交 、 非 ) 相连 接 ,分 别 表示 为 ^、v、 ~ 。 最 简单 的 逻辑 表达 式 表示 为 “Xi\C”， 这 里 Xx 下 
示 CS 的 坐标 轴 名 称 ，C 表 示 X 坐 标 轴 上 的 坐标 值 。 


以 图 2-4 中 的 核心 数据 空间 为 例 ， 点 P 表 示 一 个 子 空间 ， 将 其 表示 为 SELECT (PersonalCS9，F) ， 这 里 
F=type\PDFAplace\D: 。 


例 2.11 下 面 给 出 了 三 个 关于 查询 操作 的 例子 。 


1) SELECT (PersonalCS，type\PDF) 表示 一 个 子 空间 ， 其 包含 数据 空间 中 所 有 类 型 为 PDF 的 数据 文件 。 其 结果 如 图 2-5a 
所 示 。 


2) SELECT (PersonalCS, typeJPGA (place\D: vplace\E: ) ) 表示 一 个 子 空间 ， 其 包含 数据 空间 中 所 有 类 型 为 JPG 且 
存放 在 “D: ”或 “E: ”的 数据 文件 。 其 结果 如 图 2-5b 所 示 。 


3) SELECT (PersonalCS, type\JPGvtype\VSD) ^ (place\D: vplace\E: ) 表示 一 个 子 空间 ， 其 包含 数据 空间 中 所 有 
类 型 为 JPG 或 VSD， 且 存放 在 “D: ”或 “E: ”的 数据 文件 。 其 结果 如 图 2-5c 所 示 。 
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2.4.2 ”任务 空间 


核心 数据 空间 是 从 个 人 数据 空间 边界 的 界定 和 数据 分 类 方面 提出 的 。 实 际 上 ， 主 体 对 数据 的 访问 是 围绕 着 具体 的 任务 进行 
的 1。 研究 表明 ， 人 们 经 常 需 要 基于 任务 查询 、 访 问 、 复 制 、 分 析 个 人 数据 信息 [BB], 


如 果 能 够 将 数据 空间 中 的 数据 对 象 按照 任务 进行 分 类 ， 将 会 大 大 提高 数据 空间 的 管理 效率 。 任 务 空间 内 PP 就 是 在 这 种 背景 
提出 的 。 


在 字典 中 ， 任 务 定义 为 具有 特定 目标 的 一 系列 行为 的 集合 。 任 务 具 有 三 个 基本 元 素 ， 即 目标 、 过 程 和 时 间 。 从 数据 管理 的 角 
度 ， 任 务 可 以 描述 为 : @ 任 务 的 目标 是 生成 并 存储 特定 的 数据 信息 ， 如 写 一 封 邮件 、 编 写 一 段 程序 代码 、 撰 写 一 份 报告 等 ，Q 为 
完成 一 项 任务 ， 用 户 需 要 进行 一 系列 的 数据 操作 ， 并 参阅 已 经 存在 的 数据 信息 ， 生 成 新 的 数据 信息 ;'@ 任 务 有 一 个 生命 周期 。 


定义 2.5 任务 一 个 任务 被 定义 为 一 个 五 元 组 (TC，DI，OL，TL，QT) ， 其 中 TC 表示 任务 内 容 ， 被 描述 为 一 个 关键 字 向 
量 ; DI 表示 与 任务 相关 的 数据 项 ， 其 被 描述 为 一 个 二 元 组 (GI，RI) ，GI 表 示 用 户 完成 任务 的 过 程 中 生成 的 数据 项 ， 称 为 目标 
数据 项 ，RI 表 示 完 成 任务 过 程 中 参考 的 数据 项 ， 称 为 参考 数据 项 。O 〇 OL 表示 用 户 为 完成 任务 进行 的 操作 序列 。TL 表 示 任 务 的 生命 
周期 ， 被 描述 为 一 个 二 元 组 〈TS，TE) ，TS 表 示 任 务 的 起 始 时 间 ，TE 表 示 任 务 的 结束 时 间 。QT 表 示 任 务 的 其 他 属性 集 。 


在 实际 情况 下 ， 不 同 任务 的 目标 文件 的 数目 是 不 同 的 。 例 如 ， 写 一 个 会 议 通知 可 以 看 作 一 个 任务 ， 其 目标 只 是 生成 一 个 数据 


文档 ; 写 一 个 项 目 申请 书 也 可 以 看 作 一 个 任务 ， 其 可 能 需要 生成 多 个 数据 文档 。 目 标 文件 数目 的 多 少 在 一 定 程度 上 反映 了 任务 规 
模 的 大 小 ， 基 于 此 ， 将 任务 分 为 两 种 : 单 目标 任务 和 多 目标 任务 。 


定义 2.6 单 目标 任务 单 目 标 任务 是 指 只 包含 一 个 目标 文件 的 任务 。 
定义 2.7 多 目标 任务 ”多 目标 任务 是 指 包含 多 个 (大 于 或 等 于 2 个 ) 目标 文件 的 任务 。 
例 2.12 ”举例 说 明 单 目标 任务 和 多 目标 任务 。 


T1= ({PIM, proposal}, ({11}, {l2, 13， 14}) / {O1， O2， wen On), (Ts1， Te1) ) 是 一 个 单 目标 任务 。 其 内 容 被 描述 
为 两 个 关键 字 “PIM” 和 “proposal”。 其 包含 四 个 相关 的 数据 项 I1、12、13 和 14，T1 的 目标 是 生成 文件 11， 其 需要 参阅 的 文件 
包括 12>、13 和 14。 


T2= ({VLDB2009, Submission}, ({l1, 12}, {l3, 14}) , {O1, O2, ..., On}, (Ts2, Te2) ) 是 一 个 复杂 任务 ， 其 目标 
是 生成 文件 11 和 12。 
一 个 多 目标 任务 可 以 看 作 由 若干 个 单 目标 任务 构成 ， 因 此 ， 如 何 自动 地 识别 单 目标 任务 是 进行 任务 管理 的 基本 问题 。 


用 户 任务 之 间 往 往 具 有 各 种 各 样 的 天 系 ， 如 有 的 任务 具有 内 容 相似 性 ， 例 如 ， 书 写 一 份 关于 数据 空间 的 研究 报告 和 写 一 篇 数 
据 空间 方面 的 论文 属于 两 个 不 同 的 任务 ， 但 有 些 内 容 可 能 非常 相似 ; 有 的 任务 具有 时 间 相 关 性 ， 例 如 ， 有 的 任务 在 同一 个 时 期 被 
执行 完成 ， 有 的 任务 之 间 具 有 包含 性 ,例如 ， 写 一 篇 论文 可 以 看 作 一 个 任务 ， 其 可 能 还 包括 分 析 实 验 数据 、 撰 写 论文 等 多 个 子 任 
务 。 当 然 任 务 之 间 还 会 有 许多 其 他 的 关系， 这 些 关 系 将 任务 联系 在 一 起 ， 从 而 可 以 为 用 户 提供 更 加 丰富 、 更 加 有 效 的 服务 ， 本 书 
提出 了 三 种 任务 关系 : 包含 关系 、 时 间 关 系 、 内 容 关 系 。 


1) 包含 关系。 由 于 不 同 任务 往往 具有 不 同 的 规模 。 一 个 任务 可 能 包含 若干 子 任务 ， 将 任务 之 间 的 这 种 关系 定义 为 任务 包含 
关系 。 例 如 ， 准 备 国际 数据 库 会 议 SIGMOD 2010 的 投稿 可 以 看 作 一 个 任务 ， 其 可 能 包含 论文 撰写 、 实 验 评价 等 多 个 子 任务 。 


2) 内 容 关 系 。 两 个 任务 可 能 内 容 上 有 相近 的 特性 。 例 如 ， 书 写 天 于 数据 空间 技术 研究 的 项 目 申 请 报告 和 书写 天 于 数据 空间 
技术 研究 的 论文 是 两 个 不 同 的 任务 ， 但 是 两 个 任务 的 内 容 都 是 关于 数据 空间 技术 ， 因 此 可 能 会 参阅 一 些 共同 的 文章 ， 这 样 可 以 看 
作 两 个 任务 具有 内 容 相似 性 。 


3) 时 间 关 联 。 时 间 是 任务 的 一 个 重要 属性 ， 也 是 人 们 查找 数据 信息 的 重要 线索 。 如 果 两 个 任务 总 是 在 相同 的 时 间 段 内 被 执 
行 ， 则 认为 这 两 个 任务 具有 时 间 关 联 关系 。 


基于 这 三 种 关系 ， 本 书 提出 了 任务 空间 模型 。 


定义 2.8 任务 空间 任务 空间 (Task Space，TS) 被 定义 为 TS={T，R}，R={In，Co，T ， 这 里 表示 任务 集合 ， 了 是 任务 
关系 的 集合 ，In 表 示 包 含 关 系 (Inclusive) ，Co 表 示 内 容 关 系 (Content) ， Ti 表示 时 间 关 系 (Time) 。 


当然 ， 任 务 空间 中 可 以 包含 更 多 的 任务 关系 。 本 章 中 只 是 基于 用 户 查 询 的 需要 定义 了 三 种 基本 关系 。 
例 2.13 ”任务 空间 示例 。 


图 2-6 显 示 了 一 个 任务 空间 示例 TS。 
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图 2-6 ”任务 空间 示例 


图 2-6 表 示 任 务 TS 的 内 容 ， 表 2-2 表 示 用 户 的 一 个 操作 序列 ， 图 2-7 利 用 一 个 图 表示 任务 及 其 关系 ， 表 2-3 表 示 了 图 2-6 中 各 任 


务 的 内 容 及 属性 值 。 


表 2-2 用 户 操 作 序 列 示例 





Ti1.1 (08-01-20.19.50) Modify 
I13-1 (08-01-20.19:01) Read 
了 13-1 (08-01-20,18.55) Read 











图 2-7 任务 及 其 关系 
表 2-3 图 2-6 中 各 任务 的 属性 


( 弘 ) 
序号 访问 时 间 访问 类 型 
1 (08-01-20.18.3 Read 
5 (08-01-20.,13:50 Read 
6 (08-01-20 ,13 : Read 
本 (08-01-20 ， Read 
8 (08-01-20 ,09. Read 
9 (08-01-20 ， Read 
10 (08-01-19 .2 Read 
可 (08-01-18. Modify 
12 (08-01-18 ， Read 
3 (08-=01-15 ,19: Modify 
14 (08-01-15.11.2 Modify 
15 (08-01-15.,09: Modify 










































任务 标识 访问 序列 
标识 符 关键 字 集 合 {ai} 包含 关系 | 内 容 关 系 | 时 间 关 系 
和 ee 0 | Tle Tiss 
| Submission. SIGMOD. 01-20 19 :50 
了 11 Experiment 
了 12 System .Program 
01-20 19 :( 
01-20 18 .5: 
01-20 18:. 3 
了 13 Reference. Dataspace 01-20 13:: 
01-20 13; 
01-20 11 
01-20 09 : 
( 续 ) 
任务 标识 任务 内 容 | 访问 序列 任务 关联 
标识 符 关键 字 集 合 {Ci} {ai} 包含 关系 | 内 容 关 系 | 时 间 关 系 
7 Proposal. Project. 
| Dataspace 
Toi Document 
01-20 08:36 
1 22-1 01-19.2008 
T°»; Reference 1 22.» 01-18 09.10 和 Ts 
I 22-3 01-18 18520 
01-15 09 :06 
01-15 19:50 
了 和 Dataspace, Presentation Ts.1 | _ 了 了 2? 
01-15 11:21 

















可 以 看 出 ， 任 务 T22 和 T3 之 间 具 有 时 间 关 系 ，T13 和 T22 之 间 具 有 内 容 关 系 。 由 图 2-7 可 以 看 出 ， 用 户 任务 形成 一 个 层次 结 


构 ， 在 第 一 层 包 括 三 个 任务 T1、T2 和 T3，T1 可 以 表示 为 {“SIGMOD2010，Submission” ， 
50》”}。 其 中 Im_n 标 识 序号 为 m 的 任务 的 第 n 个 相关 文件 。 同 样 ， 可 以 表示 任务 T2、T3、T11、T12、T13、T21、T22， 如 表 2-3 
所 示 。 


“11.1”，“ (08-01-2019: 


[1] Y Li, D Elsweiler, X Meng.Towatds Task-Organised Desktop Collections LC] .In Proceedings of the ACM SIGIR Workshop on 
Desktop Search, 2010: 21-24. 
[2] Y Li, D Elsweiler, X Meng.Towatds Task-Organised Desktop Collections LC] .In Proceedings of the ACM SIGIR Workshop on 


Desktop Search, 2010: 21-24. 


DB] X Dong, A Halevy.Indexing Dataspaces [C] .In Proceedings of the 27th International Conference on Management of Data (SIGMOD 
2007) ，2007: 43-54. 

[4] Y Li, D Elsweiler, X Meng.Towatds Task-Organised Desktop Collections LC] .In Proceedings of the ACM SIGIR Workshop on 
Desktop Search, 2010: 21-24. 

[5] X Dong, A Halevy.Indexing Dataspaces [C] .In Proceedings of the 27th International Conference on Management of Data (SIGMOD 
2007) ，2007: 43-54. 


2.5 ”小结 


本 章 针对 个 人 数据 的 特征 ， 介 绍 了 个 人 数据 空间 概念 模型 和 逻辑 模型 ， 逻 辑 模型 主要 介绍 了 iDM 数 据 模 型 、 基 于 三 元 组 的 
RDF 模 型 和 基于 四 元 组 的 T-DSP 模 型 ， 针 对 依赖 主体 的 数据 特征 ， 介 绍 了 核心 数据 空间 和 任务 空间 模型 。 这 些 数据 模型 对 于 数据 
的 存储 、 索 引 和 查询 都 会 带 来 影响 ， 需 要 采用 不 同 于 以 往 的 策略 。 
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第 3 草 ”个 人 数据 集成 


3.1 引言 


个 人 数据 管理 需要 解决 的 首要 问题 是 辨别 个 人 数据 以 及 如 何 获得 这 些 数据 。 研 究 表明 ， 大 部 分 情况 下 用 户 对 个 人 数据 的 访问 
是 一 种 “再 访问 ”， 即 访问 曾经 访问 过 的 数据 项 [2]， 这 表明 个 人 曾经 访问 过 的 数据 和 主体 有 关系 的 概率 会 比较 大 。 但 是 ， 个 人 
不 曾 访问 过 的 数据 和 主体 是 否 就 一 定 没有 关系 呢 ? 其 实 不 然 ， 比 如 某 个 人 发 表 的 论文 ， 在 出 版 社 的 网 站 上 往往 会 有 该 论文 的 题 
目 、 发 表 期 刊 、 发 表 时 间 、 出 版 社 名 称 、 被 El 或 SCI 等 文献 索引 工具 检索 的 信息 ， 而 这 些 信息 可 能 并 不 是 本 人 所 知道 的 。 


因此 ， 可 以 将 个 人 数据 信息 区 分 为 两 类 : 主体 访问 过 的 数据 信息 和 主体 并 不 知晓 的 个 人 数据 信息 。 个 人 数据 集成 的 目的 就 是 
能 够 有 效 地 、 尽 可 能 自动 地 发 现 个 人 数据 信息 并 有 效 地 组 织 这 些 信息 。 


个 人 数据 空间 的 建立 一 般 需要 经 过 如 下 步骤 : 一 是 建立 初始 个 人 数据 空间 ， 这 是 个 人 数据 管理 的 基础 和 起 点 ， 其 目标 是 基于 
能 够 获得 的 个 人 数据 信息 特征 ， 从 公共 数据 空间 中 识别 出 与 主体 有 关系 的 数据 对 象 ， 并 将 其 作为 个 人 数据 空间 的 初始 集合 ， 这 一 
阶段 获得 的 数据 集 是 粗略 的 、 可 能 有 误差 的 ; 二 是 基于 初始 个 人 数据 空间 ， 随 着 时 间 的 推移 和 用 户 的 信息 访问 ， 不 断 自 适 应 地 更 
新 数据 空间 的 内 容 ， 包 括 识别 与 主体 相关 的 数据 对 象 ， 如 任务 等 。 


本 章 主 要 包括 个 人 数据 集成 系统 框架 、 初 始 数据 空间 构建 、 基 于 任务 的 数据 集成 等 几 方 面 内 容 。 


[1] P Ogilvie, J Callan.Combining Document Representations for Known-item Search [LC] .In Proceedings of the 26th Annual International 
ACM SIGIR Conference on Reseatch and Development in Informaion Retrieval (SIGIR) , Toronto, Canada, 2003: 143-150. 
[2 J H Lee, A Renear, L C Smith.Known-Item Seatch: Vatiations on a Concept [LC] .In Proceedings of 69th Annual Meeting of the 


American Society for Information Science and Technology (ASIST) , Austin, TX, 2006: 619-626. 
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能 够 获得 的 个 人 数据 信息 特征 ， 从 公共 数据 空间 中 识别 出 与 主体 有 关系 的 数据 对 象 ， 并 将 其 作为 个 人 数据 空间 的 初始 集合 ， 这 一 
阶段 获得 的 数据 集 是 粗略 的 、 可 能 有 误差 的 ; 二 是 基于 初始 个 人 数据 空间 ， 随 着 时 间 的 推移 和 用 户 的 信息 访问 ， 不 断 自 适 应 地 更 
新 数据 空间 的 内 容 ， 包 括 识别 与 主体 相关 的 数据 对 象 ， 如 任务 等 。 


本 章 主要 包括 个 人 数据 集成 系统 框架 、 初 始 数 据 空间 构建 、 基 于 任务 的 数据 集成 等 几 方面 内 容 。 


[1] P Ogilvie, J Callan.Combining Document Representations for Known-item Search [Cj] .In Proceedings of the 26th Annual International 
ACM SIGIR Conference on Reseatch and Development in Informaion Retrieval (SIGIR) , Toronto, Canada, 2003: 143-150. 
QJ HLee, A Renear, L C Smith.Known-Item Search: Variations on a Concept LCj] .In Proceedings of 69th Annual Meeting of the 


Ametican Society for Information Science and Technology (ASIST) , Austin, TX, 2006: 619-626. 


3.2 个 人 数据 集成 概述 


3.2.1 个 人 数据 来 源 


个 人 数据 集成 的 目的 是 及 时 发 现 和 人 存储 与 主体 有 关 的 数据 信息 ， 以 便于 以 后 的 访问 。 按 照 不 同 的 标准 ， 对 于 个 人 数据 信息 有 
多 种 分 类 方法 。 按 照 存储 位 置 的 不 同 可 以 分 为 存放 在 个 人 计算 机 的 数据 信息 、 存 放 在 手机 上 的 数据 信息 及 存储 在 网 络 空间 等 其 他 
位 置 的 个 人 数据 信息 ; 按照 建立 的 时 间 、 数 据 类 型 也 可 以 对 个 人 数据 信息 进行 分 类 。 


个 人 数据 管理 第 3 章 ”个 人 数据 集成 本 章 按照 “主体 是 否 访问 过 ”将 现实 世界 中 的 个 人 数据 分 为 两 类 : 
1. 主 体 访问 过 的 个 人 数据 


这 类 信息 对 于 用 户 来 说 具有 潜在 的 使 用 价值 。 通 常 来 说 ， 用 户 访问 过 的 数据 信息 包括 : 个 人 邮件 、 个 人 计算 机 中 访问 过 的 文 
件 、 个 人 访问 过 的 互联 网 上 的 网 页 信息 、 个 人 从 互联 网 上 下 载 的 各 类 文件 、 其 他 打开 并 阅读 过 并 以 各 种 方式 存在 的 数据 信息 等 。 


2. 主 体 未 访问 过 的 个 人 数据 


随 着 网 络 的 发 展 ， 每 个 人 都 成 为 信息 的 潜在 制造 者 ， 这 些 数 据 不 可 避免 地 要 与 人 有 关联 ， 比 如 论坛 发 表 的 关于 某 个 人 的 评论 
言 息 ; 网 站 发 布 的 一 些 与 某 个 主体 相关 的 信息 ， 如 比赛 获奖 信息 、 录 取信 息 等 。 这 些 信 息 又 可 以 分 为 两 部 分 : 主体 知 其 存在 且 没 
有 访问 过 的 数据 和 主体 不 知 其 存在 的 数据 。 


主体 知 其 存在 且 没 有 访问 过 的 数据 。 随 着 物 联网 、 移 动 互联 网 和 可 穿戴 设备 的 友 展 ， 人 身体 随时 随地 的 各 种 变化 都 会 被 及 时 
记录 下 来 ， 比 如 每 个 时 刻 主体 的 位 置 、 心 跳 、 呼 吸 状 况 、 驾 驶 的 车 的 情况 、 自 己 家 中 各 种 设备 的 运转 情况 等 ， 这 些 信息 也 构成 了 
个 人 数据 空间 的 重要 组 成 部 分 。 用 户 知道 这 些 信 息 的 存在 ， 但 是 由 于 这 些 信息 规模 大 、 缺 乏 语 义 等 特征 ， 用 户 并 未 访问 过 这 些 信 
息 。 


主体 不 知 其 存在 的 数据 。 对 于 有 些 数 据 ， 主 体 并 不 知道 它 的 人 存在， 当然 也 不 曾 访问 过 ， 但 是 这 些 数据 对 于 主体 也 很 重要 。 比 
如 ， 互 联网 上 已 经 出 现 了 关于 自己 项 目 批复 的 消息 ， 虽 然 自己 可 能 尚 不 知情 ， 但 并 不 能 否认 其 与 主体 的 相关 性 ; 再 比如 ， 其 他 用 
户 给 本 人 发 了 邮件 ,或 友 表 了 与 本 人 相关 的 评论 ， 但 自己 尚未 知晓 ， 这 种 情况 下 也 不 能 否认 这 些 信息 与 主体 的 相关 性 。 


个 人 数据 集成 的 目的 就 是 能 够 自动 地 、 及 时 地 识别 上 述 个 人 数据 信息 。 传 统 的 数据 集成 系统 需要 有 固定 的 数据 模式 ， 然 后 将 
不 同 的 数据 源 信息 通过 统一 接口 集成 起 来 ， 从 而 实现 信息 共享 。 但 是 对 于 个 人 数据 来 说 ， 提 前 建立 一 种 适用 于 所 有 用 户 的 、 长 期 
不 变 的 数据 模式 是 困难 的 。 原 因 如 下 : 用 户 具有 非常 强 的 个 性 化 特征 ， 比 如 具有 不 同 的 职业 、 年 龄 、 兴 趣 爱 好 ， 因 此 其 个 人 数据 
空间 的 内 容 也 干 差 万 别 ;， 即 使 对 于 同一 个 用 户 ， 其 关注 的 数据 也 会 随 着 自己 的 成 长 、 工 作 的 变化 等 发 生 改 变 。 因 此 个 人 数据 集成 
是 一 个 pay-as-you-go ( 现 收 现 付 ) 的 过 程 ， 称 之 为 “PAYGO” 数据 集成 ， 其 也 被 称 为 “演化 数据 集成 ”， 其 含义 是 数据 模式 
随 着 用 户 的 不 断 使 用 而 不 断 演化 ， 从 而 自动 适应 现实 世界 中 数据 的 变化 。 


3.2 ”个 人 数据 集成 概述 


3.2.1 个 人 数据 来 源 


个 人 数据 集成 的 目的 是 及 时 发 现 和 人 存储 与 主体 有 关 的 数据 信息 ， 以 便于 以 后 的 访问 。 按 照 不 同 的 标准 ， 对 于 个 人 数据 信息 有 
多 种 分 类 方法 。 按 照 存储 位 置 的 不 同 可 以 分 为 存放 在 个 人 计算 机 的 数据 信息 、 存 放 在 手机 上 的 数据 信息 及 存储 在 网 络 空间 等 其 他 
位 置 的 个 人 数据 信息 ; 按照 建立 的 时 间 、 数 据 类 型 也 可 以 对 个 人 数据 信息 进行 分 类 。 


个 人 数据 管理 第 3 章 ”个 人 数据 集成 本 章 按照 “主体 是 否 访问 过 ”将 现实 世界 中 的 个 人 数据 分 为 两 类 : 
1. 主 体 访问 过 的 个 人 数据 


这 类 信息 对 于 用 户 来 说 具有 潜在 的 使 用 价值 。 通 常 来 说 ， 用 户 访问 过 的 数据 信息 包括 : 个 人 邮件 、 个 人 计算 机 中 访问 过 的 文 
件 、 个 人 访问 过 的 互联 网 上 的 网 页 信息 、 个 人 从 互联 网 上 下 载 的 各 类 文件 、 其 他 打开 并 阅读 过 并 以 各 种 方式 存在 的 数据 信息 等 。 


2. 主 体 未 访问 过 的 个 人 数据 


随 着 网 络 的 发 展 ， 每 个 人 都 成 为 信息 的 潜在 制造 者 ， 这 些 数 据 不 可 避免 地 要 与 人 有 关联 ， 比 如 论坛 发 表 的 关于 某 个 人 的 评论 
言 息 ; 网 站 发 布 的 一 些 与 某 个 主体 相关 的 信息 ， 如 比赛 获奖 信息 、 录 取信 息 等 。 这 些 信 息 又 可 以 分 为 两 部 分 : 主体 知 其 存在 且 没 
有 访问 过 的 数据 和 主体 不 知 其 存在 的 数据 。 


主体 知 其 存在 且 没 有 访问 过 的 数据 。 随 着 物 联网 、 移 动 互 联网 和 可 穿戴 设备 的 发 展 ， 人 身体 随时 随地 的 各 种 变化 都 会 被 及 时 
记录 下 来 ， 比 如 每 个 时 刻 主体 的 位 置 、 心 跳 、 呼 吸 状 况 、 驾 驶 的 车 的 情况 、 自 己 家 中 各 种 设备 的 运转 情况 等 ， 这 些 信息 也 构成 了 
个 人 数据 空间 的 重要 组 成 部 分 。 用 户 知道 这 些 信息 的 存在 ， 但 是 由 于 这 些 信息 规模 大 、 缺 乏 语 义 等 特征 ， 用 户 并 未 访问 过 这 些 信 
息 


‘Co 


主体 不 知 其 存在 的 数据 。 对 于 有 些 数 据 ， 主 体 并 不 知道 它 的 存在 ， 当 然 也 不 曾 访问 过 ， 但 是 这 些 数据 对 于 主体 也 很 重要 。 比 
如 ， 互 联网 上 已 经 出 现 了 关于 自己 项 目 批复 的 消息 ， 虽 然 自 己 可 能 尚 不 知情 ， 但 并 不 能 否认 其 与 主体 的 相关 性 ; 再 比如 ， 其 他 用 
户 给 本 人 发 了 邮件 ,或 友 表 了 与 本 人 相关 的 评论 ， 但 自己 尚未 知晓 ， 这 种 情况 下 也 不 能 否认 这 些 信息 与 主体 的 相关 性 。 


个 人 数据 集成 的 目的 就 是 能 够 自动 地 、 及 时 地 识别 上 述 个 人 数据 信息 。 传 统 的 数据 集成 系统 需要 有 固定 的 数据 模式 ， 然 后 将 
不 同 的 数据 源 信息 通过 统一 接口 集成 起 来 ， 从 而 实现 信息 共享 。 但 是 对 于 个 人 数据 来 说 ， 提 前 建立 一 种 适用 于 所 有 用 户 的 、 长 期 
` 变 的 数据 模式 是 困难 的 。 原 因 如 下 : 用 户 具有 非常 强 的 个 性 化 特征 ， 比 如 具有 不 同 的 职业 、 年 龄 、 兴 趣 爱 好 ， 因 此 其 个 人 数据 
空间 的 内 容 也 干 差 万 别 ;即使 对 于 同一 个 用 户 ， 其 天 注 的 数据 也 会 随 着 自己 的 成 长 、 工 作 的 变化 等 发 生 改变 。 因 此 个 人 数据 集成 
是 一 个 pay-as-you-go ( 现 收 现 付 ) 的 过 程 ， 称 之 为 “PAYGO"” 数据 集成 ， 其 也 被 称 为 “演化 数据 集成 ”， 其 含义 是 数据 模式 
随 着 用 户 的 不 断 使 用 而 不 断 演化 ， 从 而 自动 适应 现实 世界 中 数据 的 变化 。 


3.2.2 ”集成 系统 框架 


图 3-1[1] 所 示 为 个 人 数据 空间 集成 框架 ， 包 括 数据 监控 引擎 和 数据 集成 引擎 两 部 分 。 














数据 集成 引擎 


图 3-1 数据 空间 集成 系统 框架 


数据 监控 引擎。 负责 监控 数据 空间 内 部 和 外 部 的 变化 ， 以 支持 自动 的 数据 集成 。 监 控 引 警 包括 两 部 分 ， 即 一 部 分 监控 数据 空 
间 外 部 数据 源 的 变化 (Context Monitor) ， 如 在 桌面 建立 了 新 的 文档 、 接 收 了 新 的 邮件 等 ; 另 一 部 分 监控 数据 空间 内 部 数据 的 
变化 (DS Monitor) ， 如 对 某 个 文档 进行 了 修改 。 监 控 引 警 监控 到 数据 变动 后 ， 通 知 数据 集成 引擎 完成 数据 集成 。 


数据 集成 引擎 。 负 责 新 数据 对 象 的 集成 和 原 数据 对 象 的 更 新 。 数 据 集成 引擎 包括 数据 包装 代理 、 数 据 对 象 识 别 、 数 据 相关 性 
评估 几 个 部 分 。 


1) 数据 包装 代理 : 由 于 数据 空间 包括 多 个 不 同类 型 的 数据 源 ， 而 不 同 的 数据 格式 需要 不 同 的 数据 抽取 技术 。 数 据 包装 代理 
的 主要 任务 是 从 特定 数据 项 中 抽取 特征 信息 并 按照 数据 空间 要 求 进行 形式 化 表示 。 数 据 抽取 是 数据 集成 的 第 一 步 ， 通 过 数据 包装 
器 (Wrapper) 实现 ， 每 个 包装 器 对 应 不 同 的 数据 源 ， 负 责 对 特定 格式 的 数据 对 象 进行 信息 抽取 和 标识 ， 并 通过 模式 匹配 确定 
数据 对 象 在 数据 空间 中 是 否 已 经 人 存在， 完成 数据 集成 操作 。 例 如 ， 当 需要 集成 一 篇 PDF 格式 的 论文 时 ， 相 应 的 Wrapper 会 自动 
将 论文 题目 、 作 者 、 摘 要 、 参 考 文献 等 信息 抽取 出 来 ， 并 用 这 些 信息 标识 该 数据 对 象 。 


2) 数据 对 象 识别 : 该 模块 包括 两 项 内 容 : 一 是 将 待 处 理 的 对 象 与 数据 空间 现 有 数据 模式 进行 比较 ， 确 定 其 对 应 的 数据 模 


式 ， 这 一 步 需 要 借鉴 模式 匹配 和 实体 识别 的 相关 工作 ; 二 是 将 待 处 理 的 对 象 和 数据 空间 现 有 对 象 进行 匹配 ， 确 定 该 数据 对 象 在 数 
据 空间 中 是 否 人 存在 ， 以 确定 下 一 步 需 要 执行 的 任务 。 


3) 数据 相关 性 评估 : 在 保存 之 前 通过 评价 机 制 (Evaluator) 对 数据 对 象 与 主体 的 相关 性 进行 评估 ， 如 果 数 据 对 象 与 主体 相 
关 ， 将 该 对 象 集成 到 数据 空间 ， 人 否则 放弃 该 数据 对 象 。 


[1] Y Li, X Meng.Research on Personal Dataspace Management [Cj] .The 2nd SIGMOD PhD Workshop on Innovative Database 


Reseatch (IDAR) ，2008: 7-12. 


3.2.3 ”数据 空间 演化 


建立 初始 个 人 数据 空间 以 后 ， 必 须 不 断 地 更 新 个 人 数据 及 其 关联 天 系 。 与 传统 的 数据 库 不 同 ， 这 种 改变 应 当 是 一 种 自 适 应 的 
改变 ， 而 不 是 需要 用 户 刻意 地 进行 修改 。 个 人 文件 是 最 基本 的 个 人 相关 实体 ， 其 属性 包括 最 近 访问 时 间 、 访 问 次 数 、 最 近 修 改 时 
间 、 修 改 次 数 、 文 件 长 度 等 ， 这 些 属 性 的 修改 比较 简单 。 主 体 行 为 是 引发 个 人 数据 改变 的 主要 因素 。 本 节 重 点 介绍 主体 访问 行为 
的 识别 、 主 体 任务 的 识别 ， 以 及 任务 之 间 关 联 天 系 的 识别 方法 。 


演化 是 数据 空间 区 别 于 传统 数据 管理 技术 的 重要 特征 之 一 ， 其 含义 如 下 。 


定义 3.1 数据 空间 演化 ”是 指 通过 自 适 应 的 方式 自动 地 更 新 数据 空间 ， 及 时 准确 地 反映 个 人 数据 信息 的 变化 。 这 种 变化 既 
包括 个 人 相关 实体 及 其 属性 的 变化 ， 也 包括 新 的 相关 实体 及 其 关联 关系 的 发 现 。 


例 3.1 几 个 数据 空间 演化 的 示例 。 


示例 1: 假设 论文 A 是 个 人 数据 空间 的 一 篇 论文 ， 当 用 户 对 这 篇 论文 进行 修改 后 ， 则 这 篇 论文 的 “最 后 修改 时 间 ” 和 “论文 
长 度 ” 两 个 属性 就 会 改变 。 用 户 在 修改 这 篇 论文 的 时 候 ， 可 能 会 引用 其 他 实体 的 信息 ， 比 如 引用 了 论文 B 的 一 幅 图 片 ， 则 在 这 两 
个 实体 A 和 B 之 间 就 会 产生 一 种 引用 关系 ， 而 该 关系 也 是 与 主体 相关 的 。 数 据 空 间 应 当 能 够 自 适 应 地 识别 这 种 已 有 实体 属性 的 变 
化 、 新 的 实体 或 新 实体 天 系 的 产生 。 


示例 2: 用 户 A 收 到 一 封 来 自 NDBC2015 组 委 会 发 来 的 一 封 邮 件 ， 该 邮件 有 一 封 PDF 格式 的 参 会 邀请 函 ， 同 时 附 有 一 个 Word 
格式 的 参 会 回执 的 表格 ， 用 户 A 下 载 了 这 两 个 附件 ， 填 写 了 参 会 回执 并 回复 了 邮件 ， 这 样 用 户 的 个 人 数据 空间 就 会 自动 增加 几 个 
实体 : 一 封 收 到 的 邮件 、 一 封 发 送 的 邮件 、 一 个 下 载 到 本 地 的 PDF 文件 、 一 个 下 载 的 Word 文 件 、 经 过 分 析 得 到 的 一 个 表示 学 术 
会 议 的 实体 NDBC2015， 并 且 系 统 会 自动 识别 出 这 些 实 体 的 属性 及 实体 之 间 的 关系 。 


示例 3: 用 户 A 在 网 上 搜索 一 本 关于 大 数据 的 论文 的 时 候 ， 无 意 中 发 现 了 一 篇 个 人 数据 索引 方面 的 文章 ， 其 针对 的 问题 和 提 
出 的 方法 与 自己 一 直 以 来 致力 于 解决 的 问题 非常 相似 ， 基 于 这 篇 文章 ， 用 户 A 找 到 了 该 文章 作者 的 主页 ， 看 到 了 更 多 这 方面 的 研 
究 工 作 ， 并 下 载 了 作者 主页 上 公开 的 一 些 论 文 和 数据 资源 。 这 样 ， 在 用 户 A 的 数据 空间 就 会 增加 几 个 数据 项 : 一 篇 天 于 个 人 数据 
索引 的 论文 、 该 论文 作者 的 个 人 主页 及 其 研究 兴趣 、 更 多 的 相关 论文 及 其 属性 信息 。 


要 实现 对 数据 空间 演化 的 支持 ， 就 需要 弄 清楚 数据 空间 演化 的 动力 ， 图 3-2 显 示 的 是 数据 空间 演化 模型 。 由 上 述 演化 示例 及 
图 3-2 可 以 看 出 ， 主 体 数据 操作 行为 是 数据 空间 演化 的 主要 动力 ， 主 要 原因 如 下 : 


1) 数据 操作 行为 往往 隐 含 地 体现 了 用 户 的 兴趣 特征 ， 如 用 户 打 开 某 个 文件 可 能 意味 着 用 户 需要 访问 该 文件 的 内 容 。 


2) 用 户 频繁 访问 某 个 文件 则 意味 着 该 文件 对 于 用 户 可 能 具有 更 重要 的 意义 。 










数据 操作 





个 人 数据 空间 





图 3-2 ”数据 空间 演化 模型 


因此 ， 如 何 获取 用 户 操作 及 反馈 信息 成 为 管理 数据 空间 的 重要 一 环 。 下 一 节 将 介绍 如 何 自动 监控 用 户 操作 行为 ， 获 取 操 作 日 


十 
Mo 


3.2.4 ”主体 访问 行为 识别 


自动 监控 用 户 行为 具有 一 定 挑战 性 ， 挑 战 性 体现 在 两 个 方面 : 数据 源 的 多 样 性 和 主体 操作 行为 的 多 样 性 。 用 户 对 于 数据 对 象 
的 修改 往往 是 通过 局 部 的 工具 操作 完成 ， 个 人 数据 管理 系统 应 当 能 够 自动 感知 个 人 数据 空间 内 部 和 外 部 数据 对 象 的 变化 ， 因 此 需 
要 对 个 人 数据 操作 行为 进行 监控 。 


关于 检测 个 人 文件 的 访问 行为 ， 有 以 下 解决 方法 : 通过 监测 打开 的 窗口 和 最 近 访 问 文件 夹 发 现 用 户 操作 。 用 六 元 组 
{ActivitylD, OperatedFile, FileDirectory, StartTime, EndTime, OperationType} 来 表示 操作 日 志 的 模式 。 算法 3.1 显 示 的 
是 方法 的 步骤 。 其 基本 思想 是 : 每 隔 一 秒 ， 系 统 会 自动 检测 打开 窗口 列表 和 最 近 访问 文件 夹 。 当 发 现 一 个 新 的 窗口 被 打开 时 ， 一 
条 新 的 日 志 记 录 便 会 产生 ， 由 于 最 近 访问 的 文件 的 快捷 方式 都 在 最 近 访 问 文件 夹 中 ， 因 而 ， 通 过 操作 系统 提供 的 “最 近 访 问 文件 
夹 ”的 变化 就 可 以 分 别 识别 出 OperatedFile、FileDirectory、StartTime 的 值 ; 另 一 方面 ， 当 一 个 窗口 被 关闭 时 ， 该 条 日 志 记录 
涉及 的 行为 的 EndTime 和 Operation Type 也 会 被 记录 下 来 ， 并 且 通 过 检查 文件 的 最 后 修改 时 间 的 变化 来 确定 Operation Type 的 
值 。 


算法 3. 1 桌面 行为 识别 


输入 :桌面 行为 列表 和 包含 最 近 访 问 的 文件 的 文件 夹 
输出 :更 新 过 的 桌面 行为 列表 
初始 化 打开 窗口 列表 ' 为 空 
每 秒 循环 一 次 
得 到 打开 窗口 列表 的 内 容 


I 


( ) 
' 不 属于 
在 中 插入 一 条 记录 ( se 2 
不 属于 
找到 最 近 的 行为 的 是 “的 行为 


更 新 这 个 行为 的 结束 时 间 为 当前 系统 时 间 
(“ 的 最 后 修改 时 间 改 变 了 ) 
将 最 后 行为 的 操作 类 型 改 为 “ 


以 个 人 计算 机 操作 为 例 ， 用 户 行为 监控 算法 如 下 : 


1) 通过 用 户 最 近 访 问 文件 的 变化 发 现 用 户 访 问 行为 。 这 一 部 分 可 以 通过 监控 操作 系统 的 APl 来 实现 。 如 果 发 现 用 户 最 近 的 
访问 文件 发 生 了 变化 ， 则 认为 用 户 发 生 了 一 次 新 的 数据 操作 行为 。 


2) 基于 文件 修改 时 间 的 变化 确定 访问 类 型 。 当 发 现 用 户 一 次 操作 行为 的 时 候 ， 假 定 操作 的 文件 为 0 ， 则 将 操作 的 文件 中 的 
修改 时 间 T 与 数据 空间 中 记录 的 该 文件 上 次 修改 时 间 T 进行 比较 。 在 T > Tt' 的 情况 下 将 用 户 文件 表 中 的 访问 类 型 字段 设 定 为 “ 修 
改 ”， 并 将 对 应 的 最 近 访问 时 间 字 段 修改 为 T。 否 则 设 定 为 “只 读 ”。 


引擎 可 以 获得 用 户 在 个 人 计算 机 中 操作 的 日 志文 件 ， 每 条 日 志 记录 包括 以 下 几 个 属性 : 时 间 、 文 件 名 、 路 径 、 操 作 
类 型 。 通 过 该 引擎 ， 可 以 确定 并 更 新 该 数据 文件 的 一 些 基 本 属性 ， 如 文件 名 、 路 径 、 访 问 时 间 、 访 问 频 率 、 文 件 大 小 、 相 关 的 任 


3.3 ”个 人 数据 空间 构建 


从 目前 来 看 ， 个 人 计算 机 和 手机 是 存放 个 人 数据 信息 较 多 的 地 方 。 本 节 主 要 介绍 基于 个 人 计算 机 建立 初始 个 人 数据 空间 的 方 


法 ， 该 方法 也 可 以 扩展 应 用 到 针对 个 人 手机 上 的 个 人 数据 的 识别 与 集成 。 


3.3.1 个 人 数据 特征 


观察 发 现 ， 用 户 访问 过 的 文件 在 文件 名 的 命名 风格 、 所 在 目录 、 文 件 类 型 等 属性 上 具有 一 些 共性 特征 。 例 如 ， 用 户 访问 过 的 
文件 往往 集中 在 特定 的 目录 下 ， 用 户 倾向 于 访问 特定 类 型 的 文件 等 。 据 此 推断 ， 文 件 “ 被 访问 过 ”属性 与 文件 类 型 、 名 称 、 目 录 
等 属性 之 间 具有 一 定 的 天 联 ， 如 果 能 够 发 现 这 种 关联 ， 则 可 以 用 来 自动 地 标识 文件 是 否 被 访问 过 。 


1. 基 于 文件 类 型 的 规则 


类 型 是 计算 机 中 文件 的 一 个 基本 的 属性 。 一 些 文档 类 型 往往 是 大 多 数 用 户 经 常 使 用 的 ， 如 doc、xls、ppt 等 。 此 外 ， 不 同 职 
业 的 人 可 能 更 加 偏重 于 访问 特定 的 文件 类 型 。 例 如 一 个 科研 人 员 可 能 经 常 访问 pdf 格 式 论文 ， 一 个 办 公 室 文员 可 能 更 多 的 访问 
doc 类 型 的 文件 ， 一 个 程序 员 可 能 更 多 地 访问 java 或 cpp 文 件 。 针 对 技术 人 人员， 统计 结果 显示 用 户 访问 最 多 的 5 种 文件 类 型 是 
doc、pdf、jpg、ppt、rar。 当 然 该 统计 结果 依赖 于 不 同 的 用 户 ， 由 于 参与 试验 的 人 员 都 是 研究 人 员 ， 因 此 该 统计 结果 主要 反映 
了 研究 人 员 经 常 访问 的 文件 类 型 。 假 设 t 束 示 一 个 类 型 ， 可 以 得 到 基于 类 型 t: 的 规则 conf (ri) =c， 这 里 r 庐 示 规则 (x.type=ti) 
全 (x.accessed=true) 。 一 个 规则 有 其 置信 度 ， 例 如 ， 通 过 统计 分 析 ， 可 以 发 现 “ 如 果 一 个 文件 是 doc 类 型 ， 那 么 其 被 访问 
过 的 概率 为 8” ， 那 么 这 个 规则 可 以 表示 为 conf ( (x.type=doc) 一 (x.accessed=true) ) =a。 


2. 基 于 目录 的 规则 


根据 用 户 的 经 验 ， 用 户 习惯 于 利用 目录 结构 来 对 个 人 桌面 数据 文件 进行 分 类 。 这 样 ， 用 户 访问 过 的 数据 文件 往往 聚集 在 特定 
的 目录 中 。 基 于 此 ， 有 学 者 提出 了 目录 访问 率 的 概念 。 


定义 3.2 ”目录 访问 率 ”目录 访问 率 (Access Ratio of Directory，ARoD) 表示 用 户 对 一 个 目录 中 文件 的 访问 比率 。 假 设 D” 表 
示 一 个 给 定 的 目录 ，N 表 示 该 目录 下 的 文件 总 数 ，M 表 示 该 目录 下 被 用 户 访问 过 的 文件 数 ， 则 ARoD (D”) =M/N。 


有 学 者 统计 了 15 个 用 户 的 数据 集 ， 共 有 750 个 目录 被 涉及 。 统 计 表 明 ， 超 过 80% 的 目录 访问 率 是 1， 约 15% 的 目录 访问 率 是 
0， 只 有 5% 的 目录 访问 率 在 0 到 1 之 间 。 因 此 可 以 得 出 如 下 结论 ， 对 于 一 个 目录 ， 用 户 或 者 访问 过 其 中 绝 大 部 分 文件 ,或 者 没有 
访问 过 其 中 任何 文件 ,访问 过 部 分 文件 的 目录 比例 很 小 。 基 于 此 可 以 得 出 结论 : 对 于 一 个 给 定 的 文件 x*， 如 果 与 x 在 同一 目录 下 的 
文件 大 部 分 被 访问 过 ， 则 x 也 很 可 能 被 访问 过 。 


3. 基 于 文件 名 的 规则 


用 户 往往 具有 一 定 的 文件 命名 习惯 ,通过 分 析 用 户 标注 的 文件 发 现 : 国内 的 用 户 往往 倾向 于 利用 中 文 名 字 命 名 个 人 文档 和 目 
录 。 下 面 通过 试验 对 这 一 结论 进行 验证 ， 在 实验 中 ， 针 对 每 个 用 户 对 比 了 两 个 参数 : Sc 和 Scc， 其 中 Sc 表示 文件 名 字 中 包含 汉字 
的 文件 的 数目 ; Scc 表 示 所 有 文件 名 包含 汉字 的 文件 中 被 用 户 标 识 为 “被 访问 过 ”的 文件 数量 。 基 于 15 个 用 户 的 数据 集 的 统计 得 
到 ，Scc/Sc 的 平均 值 是 93%， 其 意味 着 规则 (x.name includes Chinese words) 一 (x.accessed=true) 的 置信 度 是 0.93。 


4. 基 于 目录 结构 的 规则 


观察 发 现 ， 用 户 个 人 文档 在 桌面 文件 目录 中 的 分 布 具有 聚集 性 ， 即 用 户 访问 过 的 数据 文件 往往 聚集 在 相 邻 的 目录 下 。 其 意味 
着 对 于 一 个 给 定 的 目录 D' ， 其 ARoD 的 值 与 其 相 邻 目录 的 ARoD 的 数值 有 关联 。 


3.3.2 ”个 人 数据 识别 
数据 空间 构建 的 目标 是 从 公共 数据 空间 中 自动 识别 出 与 主体 相关 的 数据 项 。 根 据 第 2 章 关于 核心 数据 空间 的 定义 1]，“ 被 主 
体 访问 过 ”可 以 看 作 数 据 对 象 与 主体 的 一 种 基本 的 相关 性 ， 即 所 有 被 用 户 访问 过 的 数据 对 象 都 可 以 看 作 属于 数据 空间 。 


作为 构建 数据 空间 的 第 一 步 ， 需 要 将 用 户 访问 过 的 数据 对 象 识别 出 来 作为 数据 空间 的 初始 部 分 ， 形 式 化 地 描述 为 : 
D=f (W) ， 这 里 W 为 公共 数据 空间 的 一 部 分 ，D 为 主体 访问 过 的 数据 集合 ，f 是 识别 的 方法 。 以 个 人 数据 空间 为 例 ，W 可 以 看 作 
主体 使 用 的 个 人 计算 机 上 所 有 文件 的 集合 ，D 是 W 中 被 主体 访问 过 的 文件 的 集合 。 


图 3-3 显 示 了 实现 这 种 方法 的 框架 : 


1) 基于 已 知 的 主体 访问 过 的 数据 信息 ， 如 保存 在 “最 近 访 问 文件 夹 ”中 的 文件 、 通 讯 录 中 的 信息 等 ， 作 为 数据 空间 的 初始 
样本 S。 


2) 基于 该 初始 样本 集合 S$， 挖 握 用 户 特征 和 判定 规则 ， 构 建 识别 算法 f。 


3) 利用 该 算法 从 公共 数据 空间 中 识别 出 其 中 被 主体 访问 过 的 文件 。 


规则 生 
最 新 访 成 品 


问 文件 


规则 集 





图 3-3 ”构建 初始 数据 空间 的 系统 框架 
以 个 人 数据 空间 为 例 ， 分 析 发 现 ， 用 户 访问 过 的 文件 有 如 下 特点 : 
1) 在 内 容 上 有 相似 性 。 
2) 在 分 布 上 往往 聚集 在 一 些 特定 的 目录 下 。 


基于 这 些 特征 ， 本 节 介绍 两 种 识别 用 户 访问 过 的 文件 的 方法 中 B]: 基于 内 容 的 算法 (Content-based Algorithm，CA) 和 
基于 内 容 与 结构 的 算法 (Content and Structure-based Algorithm，CSA) 。 


1. 基 于 内 容 的 算法 


为 描述 方便 ， 表 3-1 显 示 了 描述 方法 相关 符号 及 说 明 。 

对 于 该 方法 来 说 ， 输 入 是 主体 所 使 用 的 个 人 计算 机 中 的 文件 集合 Sgesk 和 最 近 访问 的 文件 集合 Sacc， 输 出 是 该 主体 曾经 访问 
过 的 文件 集合 SpDs。 

文献 内 考虑 了 两 个 与 内 容 关联 的 属性 : 文件 类 型 和 关键 字 集 合 ， 基 于 这 两 个 属性 可 以 计算 出 一 个 文件 被 用 户 访问 过 的 概率 。 
具体 如 下 : 


表 3-1 符号 说 明 























符 > 说 明 

Si 个 人 计算 机 中 的 文件 集合 

Sh 个 人 计算 机 中 最 近 访 问 文件 夹 中 的 文件 集合 

X -个 用 户 文件 

SR 基于 类 型 计算 的 过 可 能 被 访问 过 的 概率 
Pken (2) 其 于 关键 字 计 算 的 xz 可 能 被 访问 过 的 概率 
Pcem(z) 基于 文件 名 字 计 算 的 x 可 能 被 访问 过 的 概率 
Pe 基于 多 个 用 户 实验 计算 的 Pc (x) 均 值 
Peorr. (元 ) 基于 多 个 属性 计算 的 x 可 能 被 访问 过 的 概率 值 


(1) 基于 文件 类 型 

通过 用 户 最 近 访 问 的 文件 集合 ， 获 取 用 户 感 兴趣 的 文件 类 型 ， 并 记 为 Stype={ 引 }， 这 里 a 表示 一 个 二 元 组 (Ti，Wi) ， 其 中 
T 夷 示 类 型 ，W 表 示 用 户 对 于 类 型 T 的 兴趣 度 ， 也 可 以 看 作 Ti 的 权重 (Weight) 。 

例 3.2 Stype={ (doc，0.9) ， (pdf，0.7) 姜 示 用 户 对 于 doc 文 档 类 型 的 兴趣 度 是 0.9。 对 于 pdf 文档 类 型 的 兴趣 度 是 
0.7。 


用 户 对 于 某 个 文档 类 型 的 兴趣 度 的 计算 方法 有 多 种 ， 最 简单 地 ， 可 以 粗略 认为 : 如 果 用 户 访问 过 某 类 型 的 文件 ， 则 该 类 型 的 
兴趣 度 为 1， 否 则 为 0%。 这 样 对 于 任意 一 个 文件 <， 根据 其 类 型 即 可 计算 出 基于 类 型 的 访问 概率 Ptype (x) 。 


(2) 基于 关键 字 信息 


通过 从 已 知 的 用 户 访问 过 的 数据 信息 (例如 ， 用 户 最 近 访 问 的 文档 ) 中 抽取 关键 字 信息 ， 可 以 得 到 用 户 关注 的 关键 字 集合 ， 
记 为 stoken={kij， 这 里 ki 表示 一 个 用 户 感 兴 趣 的 关键 字 。 


给 定 一 个 文件 x， 利 用 TFMIDF 等 方法 可 以 用 一 个 关键 字 集 合 Tx 描 述 文件 x， 利 用 以 下 公式 ， 通 过 计算 Tx 和 Stoken 的 相似 性 ， 可 
以 计算 出 其 访问 概率 Ptoken (x) 。 


Pisken (x) = | Ty MN Stoken | / | TT | 


基于 上 述 规则 ， 任 意 给 定 一 个 文件 ， 可 以 很 容易 地 计算 出 基于 类 型 的 权 值 Ptype、 基 于 关键 字 信 息 的 权 值 Ptoken， 基 于 这 些 
数值 可 以 计算 总 的 相关 性 概率 。 最 简单 的 方法 : 取 几 个 概率 之 中 的 最 大 值 作为 最 终 的 结果 ， 即 Ptotal=max{Ptype，Ptoken}。 


例 3.3 假设 Stype={ (doc，0.5) ， (ppt，0.8) }，Stoken={dataspace，PIM ，Survey}，x0 是 一 个 给 定 文件 ， 其 名 称 
为 “D: \PDS\A survey on DataSpace management.doc”， 则 Ptype (x0) =0.5， 这 里 Tx0= 
{Survey, Dataspace, Management}, StokenNNTxo={Dataspace, Survey}，| Txo | =3， 这 样 


Ptoken (X0) =2/3=0.67, Ptotal (XO0) =max (0.5, 0.67) =0.67。 
以 上 对 基于 内 容 的 方法 进行 了 讨论 ， 实 际 上 还 可 以 考虑 更 多 关于 内 容 的 因素 ， 如 文件 名 的 命名 特征 等 ， 这 里 不 再 详 述 。 


只 是 基于 内 容 计算 “文件 被 访问 过 ”的 概率 仍然 有 一 定 的 局 限 性 ， 因 为 获取 的 用 户 访问 过 的 信息 (如 最 近 访 问 文件 夹 ) 往往 
是 一 段 时 间 内 的 信息 ， 并 不 全 面 。 


观察 发 现 : 用 户 在 组 织 个 人 信息 的 时 候 往往 会 按照 一 定 的 分 类 方式 进行 组 织 ， 即 对 于 一 个 数据 对 象 ， 其 分 布 上 接近 的 数据 对 
象 被 用 户 访问 过 的 概率 越 大 ， 其 自身 被 用 户 访问 过 的 概率 往往 也 越 大 。 例 如 ， 对 于 一 个 文件 ， 如 果 与 其 同 目 录 的 大 部 分 文件 被 用 
户 访问 过 ， 那 么 该 文件 被 用 户 访问 过 的 概率 往往 也 比较 大 。 

2. 基 于 内 容 和 结构 的 算法 


该 算法 将 目录 结构 作为 判定 文件 是 否 被 用 户 访问 过 的 依据 。 具 体 思 路 如 下 : 首先 通过 考虑 多 种 与 内 容 有 关 的 因素 获得 被 访问 
过 的 数据 文件 集合 ， 以 该 文件 集合 为 种 子 ， 基 于 目录 结构 ， 进 一 步 计算 出 整个 计算 机 中 被 访问 过 的 数据 文件 。 


为 了 更 清晰 地 描述 算法 ， 这 里 引入 两 个 新 的 概念 : 


1) 基于 邻居 关系 的 权重 。 该 权重 根据 同 目录 下 其 他 文件 的 “是 否 访 问 过 ”属性 计算 得 到 。 对 于 一 个 文件 x*， 其 基于 邻居 关 
系 的 权重 等 于 主体 与 x 所 在 目录 的 相关 度 。 目 录 相 关 度 的 概念 将 在 下 面 介绍 。 


2) 基于 路 径 关 系 的 权重 。 该 权重 基于 文件 所 处 路 径 上 各 目录 的 权重 值 计算 得 到 。 目 录 的 权重 指 的 是 该 目录 所 有 文件 中 被 用 
户 访问 过 的 文件 所 占 的 比率 ， 图 3-4 显 示 了 一 个 目录 结构 的 示例 ， 每 个 节点 表示 一 个 目录 。 
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a) b) c) 
图 3-4 基于 目录 结构 计算 文件 相关 性 示例 
定义 3.3 ”目录 的 相关 度 ”假设 D” 是 一 个 给 定 的 目录 ，{I} 是 该 目录 下 的 文件 ，W (T) 是 通过 基于 内 容 的 方法 计算 出 来 的 


文件 1 的 权重 ， 利 用 以 下 公式 计算 出 用 户 与 该 目录 的 相关 度 (JInterest Degree of Directory, IDD) 。 


IDD(CD .Wi 
nl 


i 二 1 


利用 基于 内 容 的 方法 可 以 计算 出 每 个 文件 被 访问 过 的 概率 ， 基 于 此 可 以 计算 出 每 个 目录 的 相关 度 。 


例 3.4 如 图 3-4 所 示 ，a 显 示 了 一 个 目录 树 的 示例 ，b 显 示 了 每 个 目录 的 被 相关 度 ， 并 且 显示 了 三 个 文件 0、L 和 和 1， 属于 目 


录 D1，L 和 13 属 于 目录 D， 并 显示 了 LI 、I2 和 13 被 用 户 访问 过 的 概率 ， 这 几 个 概率 值 是 通过 基于 内 容 的 算法 计算 出 来 的 。 

定义 3.4 目录 的 逻辑 距离 ”假设 Td= (D, EE) 是 计算 机 中 的 目录 结构 ， 这 里 D 是 目录 集合 ， 忆 表示 两 个 目录 之 间 的 包含 关 
系 。 任 给 两 个 目录 d1 和 d>， 则 两 个 目录 之 间 的 逻辑 距离 LDD (di，d?) 表示 两 个 目录 在 目录 树 中 的 路 径 长 度 ， 即 两 个 节点 之 间 边 
的 数目 。 


例 3.5 在 图 3-4a 中 ， 在 目录 D1 和 D2 之 间 有 两 条 边 ， 因 此 LDD (D1，D2) =2; 在 Do 和 D122? 之 间 有 三 条 边 ， 因 此 
LDD (Do, D122) =3。 


定义 3.5 ”基于 结构 的 相关 度 ”假设 x 是 计算 机 中 的 一 个 文件 ， Lyath=D1\D2\http://www.hzcourse.com/resource/readBook? 
path=/openresources/teach_ebook/uncomptressed/16288/OEBPS/Text/...\D, 是 文件 x 所 在 的 路 径 ， 其 中 每 个 DD; 表 示 一 个 目录 ,nn 为 路 


径 长 度 。 则 基于 结构 的 相关 度 (Structure-based Weight，SW) 定义 为 : 


SW (x) =max{IDD (Di) / (LDD (D,, D;) +1) } 


基于 以 上 公式 ， 可 以 计算 出 每 个 文件 的 SW 值 。 基 于 此 ， 通 过 以 下 公式 可 以 进一步 计算 每 个 文件 与 用 户 的 相关 度 : 
P (x) =max{P| (x) ，PD (x) ，Pa (x) }， 其 中 x 是 给 定 的 文件 ，PI (x) 为 利用 基于 内 容 的 方法 计算 得 到 x 与 用 户 的 相关 度 ; 
PD (x) 表示 用 户 与 文件 x 所 在 的 目录 的 相关 度 ; Pa (x) 表示 基于 x 的 目录 结构 计算 得 到 的 相关 度 。 


例 3.6 假设 D: \D3\Da\D1WX 是 个 人 计算 机 中 的 一 个 文件 。 通 过 计算 可 以 得 到 
LDD (x, D1) =1, LDD (x, D2) =2, LDD (x, D3) =3。 如 果 IDD (D1) =0.5, IDD (D2) =0.2, IDD (D3) =0.9, 则 
Ap (x) =max{0.5/2, 0.2/3, 0.9/4}={0.25, 0.07, 0.225}=0.25。 


图 3-4c 显 示 出 了 文件 !1、12 和 13 基 于 相关 度 的 值 ， 其 计算 过 程 综合 考虑 了 文件 内 容 属 性 和 目录 结构 对 相关 度 计算 的 影响 。 
基于 内 容 和 结构 的 方法 实现 步骤 如 下 : 


1) 利用 基于 内 容 的 方法 获得 一 个 用 户 访问 过 的 文件 集合 sd。 





2) 扫 摘 整个 目录 树 ， 基 于 9d 为 每 个 目录 计算 出 目录 与 用 户 的 相关 度 IDD。 


3) 对 计算 机 中 的 整个 文件 集合 进行 扫描 ， 对 于 每 一 个 文件 i;， 根 据 其 内 容 相关 度 Pl|， 所 在 目录 的 相关 度 PD， 以 及 根据 定义 
3.5 计 算 的 基于 结构 的 相关 度 Pa， 利 用 最 大 值 的 方法 计算 出 该 文件 最 终 的 相关 度 。 
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3.4 ”任务 识别 


任务 是 个 人 数据 空间 中 一 类 特殊 而 重要 的 实体 。 这 是 由 主体 的 特性 决定 的 ， 主 体 的 日 常 行为 往往 以 任务 为 单位 进行 安排 。 第 
2 章 介绍 了 任务 空间 模型 。 但 是 如 何 将 主体 在 现实 世界 中 的 任务 反映 到 数据 世界 中 ， 即 如 何 从 数据 空间 中 自动 识别 出 主体 的 任 
务 ， 是 一 个 非常 重要 且 具 有 挑战 性 的 问题 。 


3.4.1 “任务 让 | 概述 


根据 第 2 章 关 于 任务 的 定义 ， 一 个 任务 有 以 下 基本 属性 : 任务 的 内 容 、 任 务 相关 的 文件 、 任 务 相关 的 操作 、 任 务 的 生命 周 
期 。 因 此 识别 任务 的 目的 就 是 标识 任务 的 这 些 属性 。@ 检 测 一 个 新 任务 。 当 用 户 在 桌面 上 建立 一 个 新 文件 的 时 候 ， 可 以 认为 用 户 
开始 了 一 个 新 的 单 目 标 任 务 ， 新 建立 的 文件 就 是 这 个 任务 的 目标 文件 。@ 识 别 生 命 周 期 。 假 设 F 是 一 个 任务 T 的 目标 文件 ， 则 将 F 
的 建立 时 间 (或 第 一 次 修改 时 间 ) 作为 该 任务 的 开始 时 间 ， 将 最 后 一 次 对 F 的 修改 时 间作 为 任务 结束 时 间 。@ 识 别 任务 的 内 容 。 
在 任务 模型 中 用 一 个 关键 字 向 量 表示 任务 内 容 ， 目 前 有 许多 方法 ， 如 TF/IDF 等 ， 可 以 用 来 抽取 文档 的 关键 字 信息 ， 这 些 方法 可 
以 用 来 标识 任务 内 容 。@ 识 别 与 任务 相关 的 文件 。 本 节 首 先 介绍 几 种 基本 的 可 以 用 来 识别 与 任务 相关 联 的 文件 的 方法 ， 并 对 其 各 
自 优 势 和 劣势 进行 分 析 。 


直观 地 ， 可 以 通过 监控 特定 的 用 户 行为 、 分 析 目 标 文件 所 在 的 目录 、 比 较 文件 之 间 的 内 容 来 发 现 与 任务 相关 的 文件 。 下 面 对 
这 些 方法 逐一 进行 分 析 。 


1. 基 于 特定 行为 监控 的 方法 


显然 , 一些 用 户 行为 可 以 反映 出 文件 之 间 的 关联 关系 ， 如 拷贝 、 复 制 粘贴 、 另 存 为 、 下 载 等 操作 。 通 过 检测 这 些 操作 ， 可 以 
发 现 一 些 文件 之 间 的 关联 关系 。 但 是 此 方法 具有 以 下 局 限 性 : 首先 监控 所 有 此 类 操作 是 很 难 做 到 的 。 目 前 有 成 百 上 干 的 应 用 软 
件 ， 而 且 大 量 新 软件 不 断 地 被 开发 出 来 ， 设 计 一 个 能 够 监控 所 有 软件 操作 的 程序 不 是 一 件 容易 的 事情 。 其 次 有 些 文件 之 间 的 关联 
是 隐 含 存在 的 。 例 如 ， 一 个 用 户 可 能 对 文章 A 中 的 一 段 内 容 进行 了 总 结 ， 然 后 用 手工 的 方式 将 总 结 的 内 容 加 入 文件 8 中 ， 这 种 情 
况 下 该 方法 就 不 再 有 效 。 


2. 基 于 任务 生命 周期 的 方法 


另外 一 个 比较 简单 易 行 的 方法 是 将 在 任务 T 生 命 周 期 内 用 户 访问 过 的 所 有 文件 都 看 作 与 该 任务 有 关 。 显 然 ， 这 个 方法 会 有 一 
个 很 高 的 查 全 率 ， 但 是 这 个 方法 准确 率 会 比较 低 。 原 因 如 下 : 首先 ， 用 户 往往 并 行 处 理 多 个 任务 ， 而 且 经 常 在 这 些 任 务 之 间 进 行 
切换 ， 这 种 方法 会 将 很 多 无 关 的 文件 作为 任务 的 相关 文件 其次， 有些 任 务 会 持续 很 长 的 时 间 ， 这 样 也 会 将 任务 生命 周期 内 用 户 
访问 过 的 不 相关 的 文件 当 作 该 任务 的 相关 文件 。 


3. 基 于 文件 夹 的 方法 


实际 上 ， 任 务 也 是 用 户 对 于 个 人 文件 进行 分 类 的 重要 因素 之 一 。 在 一 般 情 况 下 ， 用 户 经 常 基于 任务 建立 文件 夹 ， 以 此 实现 对 
文件 的 分 类 存放 。 因 此 ， 基 于 文件 夹 确定 与 任务 关联 的 文件 也 是 一 种 方法 : 给 定 一 个 单 目标 任务 站 ， 假 设 F 是 T 的 目标 文件 ， 则 
将 与 F 在 同一 个 文件 夹 的 所 有 文件 作为 任务 T 的 关联 文件 。 此 方法 有 以 下 问题 。 首 先 ， 任 务 只 是 用 户 建 立 文件 夹 的 依据 之 一 ， 用 
户 也 往往 基于 其 他 因素 建立 文件 夹 ， 如 时 间 、 类 型 、 文 件 内 容 等 。 其 次 ， 一 个 文件 也 可 能 与 多 个 不 同 的 任务 关联 。 而 且 ， 让 用 户 
严格 按照 任务 对 文件 分 类 存放 也 是 不 现实 的 。 因 此 这 种 方法 的 查 准 率 和 查 全 率 都 不 会 太 高 。 


4. 基 于 文件 内 容 的 方法 


通过 比较 文件 内 容 的 相似 性 确定 任务 关联 文件 。 给 定 一 个 基本 任务 了 ， 假 设 F 是 T 的 目标 文件 ， 即 找 出 与 文件 F 内 容 相似 的 
文件 集合 作为 任务 T' 的 关联 文件 。 这 个 方法 具有 以 下 局 限 性 。 首 先 ， 比 较 两 个 文本 文件 的 相似 性 的 代价 是 很 高 的 ， 不 适 于 在 线 计 
算 ; 其 次 ， 不 同类 型 的 文件 往往 无 法 进行 比较 ， 但 是 却 可 能 具有 关联 关系 ， 如 一 个 文本 文件 可 能 引用 了 某 个 图 片 文件 等 。 

研究 发 现 ， 如 果 两 个 文件 被 用 户 多 次 连续 访问 ， 则 这 两 个 文件 往往 具有 一 定 的 相关 性 。 因 此 ， 访 问 顺 序 可 以 看 作 一 个 自然 形 
成 的 与 文件 相关 性 有 关 的 因素 ， 基 于 此 ， 作 者 提出 了 两 种 任务 识别 方法 : 基于 访问 模式 的 任务 识别 算法 和 基于 稠密 块 的 任务 识别 
算法 。 


3.4.2 ”基于 访问 模式 的 算法 


在 介绍 算法 之 前 ， 首 先 给 出 以 下 定义 。 

定义 3.6 时 序 访问 序列 “时序 访问 序列 (11，I，，…， I) 是 一 个 基于 访问 时 间 的 数据 项 列表 ， 其 中 1 表示 一 个 数据 项 ， 并 
且 不 存在 两 个 连续 的 数据 项 相同 的 情况 。 

在 一 个 时 序 访问 序列 中 ， 不 存在 两 个 连续 相同 的 数据 项 。 这 是 一 种 自然 的 约定 。 当 用 户 在 一 段 时 间 内 一 直 访 问 一 个 数据 对 象 


的 时 候 ， 自 然 地 认为 用 户 的 访问 行为 没有 变化 ， 只 有 当 用 户 访问 的 数据 文件 发 生变 化 时 ， 才 认为 数据 的 访问 行为 发 生变 化 ， 从 而 
在 访问 序列 中 添加 新 的 访问 记录 。 图 3-5 显 示 了 一 个 数据 项 访问 序列 的 示例 。 
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图 3-5 ”访问 序列 的 示例 

在 数据 项 访问 序列 中 ， 两 个 相 邻 的 数据 对 象 往往 具有 一 定 的 关系 ， 这 也 被 相关 工作 进行 了 证 实 。 基 于 此 ， 定 义 了 一 种 新 的 数 
据 关系 : 时 序 相 令 (Sequential Adjacent，SA) 。 

定义 3.7 ”时 序 相 邻 ”时 序 相 邻 定义 为 一 种 二 元 关系 SA (Ti，T) ， 其 中 I、 了 表示 两 个 数据 项 ，SA (I，T) 表示 1 和 ITj 被 用 户 
连续 访问 过 。 即 在 访问 序列 中 ， 至 少 存在 一 个 有 向 边 〈Ii，IT) 。 

由 定义 可 以 看 出 ，SA 是 一 种 有 向 关系 。 在 图 3-5 所 示 的 例子 中 ， (A，B) 、 (C，D) 都 属于 时 序 相 邻 关系 。 如 果 考 虑 访问 
序列 中 的 操作 类 型 ， 则 可 以 将 相 邻 关系 SA 进一步 细 分 。 根 据 观察 ， 时 序 关系 SA (11，12) 中 12 的 操作 类 型 对 于 标识 任务 关联 更 有 
效 ， 即 当 12 对 应 的 操作 为 修改 操作 的 时 候 ，12 往 往 对 应 一 个 基本 任务 的 目标 文件 。 因 此 在 SA (11，12) 中 考虑 12 的 操作 类 型 ， 则 


SA 关系 可 以 分 为 以 下 两 种 : SA-R (11，12) ， 其 表示 用 户 在 访问 过 文件 11 以 后 ， 阅 读 过 文件 |2; @SA-M (11，12) ， 其 表示 
用 户 在 访问 过 文件 11 以 后 ， 修 改过 文件 |2。 表 3-2 显 示 了 图 3-5 所 示 示 例 中 的 SA 天 系 。 


表 3-2 ”图 3-5 所 示 的 时 序 相 邻 关 系 





时 序 相 邻 关 系 类 别 内 容 
SA-R CA Bosr LB as "CAs Ge os atBs EY {EF ws ts Bos (Bs HD 
SA-M AY, CE, FI. CA BY) 





通过 分 析 用 户 日 志 ， 发 现 了 另外 一 种 用 户 的 行为 模式 : @ 当 用 户 正在 编辑 文件 A 并 且 需 要 参阅 文件 B 的 内 容 时 ， 往 往 会 有 行 
为 模式 A 一 B 一 A， 即 用 户 从 访问 A 转 去 访问 B， 然 后 再 转 回去 访问 A; @ 有 时 用 户 可 能 需要 参阅 几 个 文件 (如 B1，B2，…) 然后 
根据 其 内 容 修改 文件 A， 这 时 就 会 有 行为 模式 A 一 B1 一 B2 一 … 一 A。 例 如 ， 当 用 户 写 项 目 总 结 的 时 候 ， 可 能 需要 参阅 项 目 计 划 、 
项 目 阶段 性 的 总 结 报告 、 一 些 图 片 等 。 基 于 此 观察 ， 本 章 提出 了 一 个 时 序 访问 环 的 概念 。 


定义 3.8 时 序 访问 环 假定 LL 二 (Xi ， X,， 四 XX) 是 一 个 时 序 访问 序列 ， 如 果 L” 二 (Xi， Xi+1， X;) 是 L 的 一 个 
子 序 列 ， 其 中 和 六 2， 并 且 Xiitem=Xiitem， 则 称 L” 为 一 个 时 序 访问 环 〈Sequential Loop，SL) ， 其 中 Xiitem 为 主 数据 项 ，{Xi+1， 


…，Xj1} 为 从 数据 项 。 


在 图 3-5 所 示 的 例子 中 ， 有 以 下 的 时 序 访问 环 : (A, B, A) ， (A, C, D, A) ， (B，E，F，G，B) 。 以 访问 环 
(B，E，F，G，B) 为 例 ， 其 中 B 是 主 数据 项 ，E、F 和 G 是 从 数据 项 。 实 际 上 ， 由 于 人 们 对 于 文件 的 访问 是 有 阶段 性 的 ， 而 且 人 
的 记忆 力也 有 局 限 性 ， 因 此 太 长 的 访问 环 没有 实际 意义 ， 而 且 会 对 环 的 处 理 算 法 带 来 不 利 影 响 。 基 于 此 ， 本 书 提 出 了 一 个 新 的 概 
念 : 基本 时 序 环 。 


定义 3.9 ”基本 时 序 环 ”假设 L” 是 一 个 时 序 访问 环 ， 如 果 不 存 在 一 个 访问 时 序 环 L”，L ”中 L ， 则 将 L” 称 为 基本 时 序 
环 ， 简 记 为 BSL (Basic Sequential Loop) 。 


图 3-5 显 示 了 时 序 访问 环 和 基本 时 序 环 的 例子 。 可 以 看 出 ， 该 图 显示 有 5 个 访问 时 序 环 : SL1、SL2、SL3、SL4、SL5。 其 中 
SL5 几 乎 包括 了 时 序 访问 序列 中 的 所 有 数据 项 ， 因 此 是 没有 多 大 意义 的 。 在 这 些 时 序 环 中 ，SL5 包 含 SL2、SL3、SL4; SL3 包 含 
SL2。 因 此 SL3 和 SL5 不 是 基本 时 序 环 。 在 SL1、SL2、SL4 中 不 包含 更 小 的 时 序 换 环 ， 因 此 它们 是 基本 时 序 环 。 基 于 基本 时 序 环 ， 
本 书 定义 了 一 种 时 序 包含 关系 。 


定义 3.10 ”时序 包含 ”假定 [” = (X，Yi，…，Yn，X) 是 一 个 基本 时 序 访 问 环 ， 其 中 又 是 主 数 据 项 ， 则 认为 又 与 Yi 之 间 有 时 
序 包含 关系 (Sedquential Inclusive Relation，SIR) ， 或 记 为 又 时 序 包含 Yi (1<i<n) 。 记 作 RSIR={ (X, Yi) |1<i<n}。 
在 图 3-6 所 示 的 例子 中 ， (A，C，D，A) 是 一 个 基本 时 序 环 ， 则 { (A，C) ， (A, D) }jERsIR。 


与 时 序 相 邻 关系 类 似 ， 通 过 考虑 数据 操作 ， 可 以 将 时 序 环 分 为 两 类 : @SL-R， 其 表示 时 序 环 中 最 后 的 访问 操作 是 读 操 作 ; 
@SL-M， 其 表示 时 序 环 中 最 后 的 访问 操作 是 更 新 操作 。 进 一 步 ， 将 时 序 包含 关系 分 为 两 类 ， 即 SI-R 和 SI-M，SI-R (p，q) 表示 
q 文 件 被 一 个 SL-R 环 包含 ，SI-M (p，9) 表示 q 文 件 被 一 个 SL-M 环 包含 。 以 图 3-5 所 示例 子 ， 其 基本 时 序 环 和 时 序 包含 关系 如 表 
3-3 所 示 。 


表 3-3 图 3-5 所 示 的 基本 时 序 环 和 时 序 包含 关系 


时 序 包 含 关 系 








此 外 ， 当 用 户 处 理 个 人 文档 的 时 人 息 ， 有 时 为 了 安全 考虑 ， 时 常 为 一 个 文档 存储 多 个 版 本 ,这样 当 对 文件 的 修改 有 问题 的 时 
候 ， 可 以 恢复 到 以 前 的 版 本 。 自 然 地 ， 对 于 一 个 文件 ， 其 原来 的 版 本 也 应 当 被 看 作 与 该 文件 具有 关联 ， 因 此 本 书 定义 了 文件 之 间 
的 版 本 关系 。 


定义 3.11 版 本 关系 ”版 本 关系 (Version Relation，VR) 表示 为 RVR (Ti ，L) ， 其 中 THj 和 L 表 示 两 个 数据 文件 ，]T 是 L 的 前 


一 个 版 本 。 
版 本 天 系 是 基于 用 户 访问 行为 识别 任务 算法 需要 考虑 的 重要 因素 之 一 ， 后 面 将 探讨 版 本 关系 的 识别 算法 。 


通过 分 析 用 户 日 志 ， 发 现 了 以 下 用 户 访问 模式 : @ 当 用 户 参 考 完 一 个 文件 时 ， 往 往返 回 原来 的 任务 更 新 目标 文件 ; @ 当 执行 
一 个 任务 的 时 候 ， 用 户 有 时 转 去 访问 几 个 相关 的 文件 ， 然 后 返回 来 更 新 目标 文件 。 因 此 ， 具 有 SA-M 关 系 和 SI-M 关 系 的 文件 在 一 
定 概率 下 具有 引用 关系 。 本 书 基于 此 提出 了 基于 用 户 访问 模式 的 任务 识别 算法 。 


该 算法 的 输入 包括 : @ 一 个 时 序 访问 序列 L'= (X1，X2，.…，Xn) ;@ 已 经 存在 的 任务 集合 TS; @ 一 个 新 的 访问 操作 
Xn+1。 输 出 是 一 个 更 新 的 任务 集合 ， 当 检测 到 一 个 更 新 操作 被 执行 的 时 候 ， 算 法 执行 如 下 步骤 : 

1) 如 果 Xn+1 所 操作 的 数据 文件 从 来 没有 被 访问 过 ， 那 么 就 建立 一 个 新 的 任务 t， 否 则 在 已 经 存在 的 任务 集合 中 找到 t。 

2) 基于 SA-M 和 SI-M 关 系 更 新 任务 t 的 关联 文件 。 

3) 查找 以 前 版 本 文件 ， 将 所 关联 的 文件 加 入 到 jt 的 相关 文件 中 。 

4) 更 新 任务 t 的 其 他 属性 (内 容 、 生 命 周期 、 关 键 字 等 ) 。 

可 以 看 出 ,该 算法 是 一 个 演化 的 在 线 运 行 的 算法 ， 其 时 间 代价 如 下 所 示 : 


1) 查找 已 经 存在 的 任务 。 其 时 间 代 价 为 O(n) ， 这 里 n 表 示 基 本 任务 的 数量 。 在 本 书 提出 的 模型 中 ， 基 本 任务 的 数量 等 于 
被 用 户 更 新 过 的 文件 数目 ， 在 实际 情况 下 ， 被 用 户 更 新 过 的 文件 数目 是 一 个 比较 小 的 值 (在 本 书 实验 所 涉及 的 用 户 中 ， 每 个 用 户 
一 年 时 间 更 新 的 文件 数目 的 最 大 值 为 861) ， 因 此 该 步骤 的 时 间 代价 是 很 小 的 。 


2) 查询 以 前 版 本 文件 。 其 时 间 代 价 为 O(n) ， 这 里 n 表 示 用 户 访问 过 的 桌面 文件 的 数量 。 在 实际 情况 下 ， 被 用 户 访问 过 的 
文件 数目 是 一 个 比较 小 的 值 (在 本 书 实验 统计 中 ， 用 户 一 年 时 间 访 问 过 的 文件 数目 的 最 大 值 为 3829) ， 因 此 该 步骤 的 时 间 代 价 
也 是 比较 小 的 。 

3) 基于 Xn+1 的 数据 文件 确定 最 小 时 序 环 。 其 时 间 代 价 为 O (n) ， 这 里 n 为 需要 向 后 回溯 扫描 的 操作 数目 。 在 实际 情况 下 ， 


基本 时 序 环 的 长 度 往往 不 超过 10。 为 了 具有 更 广泛 的 适用 性 ， 即 使 在 算法 中 将 回溯 的 操作 数 设 置 得 更 大 一 些 ， 仍 然 会 有 较 低 的 
时 间 代 价 。 


3.4.3 ”基于 稠密 块 的 算法 

从 数据 管理 的 角度 ， 将 任务 定 为 一 系列 数据 项 的 集合 。 根 据 在 任务 中 的 功能 不 同 ， 这 些 数据 项 可 以 分 为 两 类 : 表示 任务 目标 
的 核心 数据 项 ， 以 及 为 完成 任务 目标 参考 访问 的 数据 项 。 一 个 任务 可 以 形式 化 地 定义 为 : 

‘Task={Core; Reference} 


其 中 ，Core: 任务 的 核心 数据 项 ， 定 义 为 Core={ltem1}。Core 是 特定 任务 中 用 户 建立 或 修改 产生 的 新 数据 项 。 核 心 数据 项 
是 任务 中 的 重要 文件 ， 其 重要 性 体现 在 该 数据 项 代表 了 用 户 的 任务 目标 。 


Reference: 任务 的 参考 数据 项 集 ， 为 用 户 在 完成 任务 核心 数据 项 过 程 中 参考 过 的 数据 项 的 集合 。Reference= 
{ltem1, ltem2, ...}。 


例 3.7 ”将 用 户 准备 某 个 报告 看 作 任 务 T， 他 可 能 参考 了 数 篇 论文 ， 简 记 为 A.pdf、B.pdf 等 ,使 用 了 一 些 图 片 ， 简 记 为 
1jpg、2.bmp 等 ， 最 后 生成 了 一 个 幻灯 片 ， 简 记 为 “presentation.ppt”。 则 该 任务 可 以 记 为 : 


T.Core= {presentation.ppt} 
T.Reference={A.pdf, B.pdf, 1.jpg, 2.bmp} 
基于 稠密 块 的 任务 标注 方法 基于 以 下 观察 : 


1) 同一 任务 涉及 的 数据 项 在 记录 中 经 常 相 邻 ， 即 用 户 经 常 首 先 访问 某 用 户 中 一 数据 项 后 马上 访问 该 任务 的 另 一 数据 项 ， 这 
便 产 生 了 数据 项 间 操 作 上 的 时 序 关联 。 


2) 对 于 在 同一 任务 中 关系 越 紧 密 的 两 个 数据 项 ， 用 户 在 这 两 个 数据 项 上 的 连续 操作 越 多 。 
基于 上 述 观 察 ， 发 现 了 用 户 操作 记录 中 数据 项 间 的 时 序 关 联 这 一 现象 ， 并 提出 时 序 关 联 图 这 一 概念 来 建立 数据 项 间 的 关系 。 


定义 3.12 时序 关 联 图 (Time Sequence Graph) 基于 两 个 数据 项 的 操作 时 序 关 系 建立 的 图 G (V， 已 ) ， 其 中 V 是 节点 


集合 ， 每 个 节点 表示 一 个 数据 项 ; 巨 是 边 的 集合 ， 每 个 边 表示 两 个 节点 在 访问 上 具有 相 邻 关系 。 


基于 用 户 操作 记录 ， 就 可 以 建立 数据 项 间 的 时 序 关 联 图 。 建 图 规则 是 : 


2) 根据 两 个 数据 项 之 间 是 否 存 在 时 序 关联 ， 建 立 两 数据 项 对 应 图 上 的 边 。 如 果 数 据 项 A 在 数据 项 B 后 被 用 户 访 问 ， 则 认为 数 
据 项 A 与 数据 项 B 之 间 存 在 时 序 关 联 。 


例 3.8 图 3-6 为 一 个 时 序 天 联 图 示例 ， 左 边 表格 为 一 个 操作 序列 ， 显 示 了 操作 时 间 和 操作 的 数据 项 ， 右 边 为 基于 该 序列 建立 
的 时 序 关联 图 。 


time item 


EIEN EE 


5 
EE EE 





图 3-6 “时序 关联 图 的 生成 


根据 定义 可 知 ， 时 序 天 联 图 是 一 个 连通 图 。 基 于 上 述 定义 ， 个 人 数据 空间 管理 中 的 任务 识别 问题 是 : 给 定 基于 用 户 行为 生成 
的 时 序 关联 图 ， 如 何 有 效 地 挖掘 该 用 户 的 任务 。 


文献 [7] 根据 时 序 关联 图 的 特性 ， 提 出 了 稠密 块 的 概念 ， 并 进而 提出 了 基于 稠密 块 的 任务 挖掘 算法 [。 

定义 3.13 ”稠密 块 (Dense Block) ”一 种 特殊 的 块 。 在 连通 图 G 上 ， 用 H 表 示 稠 密 块 ， 则 稠密 块 H 不 仅 符 合 块 的 定义 ， 而 且 
满足 条 件 : 不 存在 边 e1、 ce2， 使 得 H-ei-e? 由 两 个 连通 分 支 H1 和 Ho 组成， 且 H1 和 Hz 的 节点 数 都 大 于 1。 

例 3.9 ”一 个 稠密 块 示例 。 

在 图 3-7 中 ，G1 是 一 个 稠密 块 ，G? 是 一 个 普通 的 块 。 对 稠密 块 G1 来 说 ， 不 存在 两 条 边 使 得 当 这 两 条 边 被 割 掉 时 ，G1 被 分 为 
两 个 度数 均 大 于 1 的 连通 分 支 。 在 G1 中 ， 割 掉 边 e1、e2 形 成 的 两 连通 分 支 中 有 一 个 度数 为 1]。G? 是 一 个 普通 的 块 ， 它 满足 块 的 定 
义 : 连通 上 且 不 存在 割 点 。 但 是 当 e3、e4 被 去 掉 时 ， 该 块 可 以 被 分 成 度数 分 别 为 2 和 3 的 两 个 连通 分 支 ， 因 此 不 是 稠密 块 。 





图 3-7 稠密 块 示 意图 


基于 稠密 块 的 任务 挖掘 方法 包括 两 个 关键 的 算法 : 时 序 关联 图 的 预 处 理 算法 和 基于 稠密 块 的 任务 挖掘 算法 。 


1. 时 序 关联 图 的 预 处 理 算法 


在 生成 的 时 序 关联 图 上 ， 观 察 到 下 列 事实 : 图 中 存在 大 量 特殊 结构 ， 如 图 3-8 中 数据 项 A、B、C 形 成 的 结构 。 在 这 种 结构 
中 ， 每 个 节点 依次 相 邻 ， 且 度数 均 为 2。 而 这 些 结构 所 对 应 的 数据 项 关联 紧密 ， 一 并 指向 一 个 用 户 任 务 。 一 般 不 会 出 现 数 据 项 
A、B 属 于 一 个 任务 ， 而 数据 项 C 属 于 另 一 个 任务 的 情况 。 为 处 理 该 结构 以 进行 更 精确 的 任务 挖掘 ， 文 献 [7] 提出 了 时 序 链 结构 
的 定义 。 

定义 3.14 时 序 链 (Time Sequence Chain) 结构 在 时 序 关联 图 G 上 ， 若 存在 点 v1，v2，…，vh。(n 之 4) 使 得 vi (i=2， 


人 n-1 仅 与 vi 人 vi+1 相 邻 ， Hvi、 Vn 度数 不 等 于 2， 则 v2， i Vn.1 构 成 时 序 链 结 构 。 


在 时 序 关联 图 的 预 处 理 阶 段 ， 合 并 时 序 链 结构 为 一 个 点 。 在 图 3-8 中 ， 预 处 理 算法 将 A、B、C 合 并 生成 了 F。 


A 





图 3-8 ”时 序 关 联 图 的 预 处 理 


预 处 理 过 程 的 算法 如 下 : 


算法 3.2 图 的 预 处 理 算法 





输入 : 时 序 关联 图 G(V., EF) 
输出 : 经 过 处 理 的 时 序 关联 图 G (V”. E”) 
1) For each node v inV Do 


反 IEfvismnotmarked Then 


电 create anewnodet inV'; 
(4) If degree(v)= 2 Then 

(5 TOC (i En 

(6 Else 

OD Map v to t; 

(8) Mark v; 

(9) End if; 

器 End if; 

DD End for; 


(3 For each el(vl， V2) in E Do 
(3 Find tl that contains vi; 
(9 Firid t2 that contains v2; 


(BY Adde(tl, t2)toE'; 





(0 End For; 


靖 数 TSC (v，t): A 将 节点 vv 所 在 的 时 序 链 合 并 为 一 个 新 节点 
If degree (V) = 2 Then 

Map'v to t; 

Mark V; 


For each node v adjacent to v Do 
If degree (VvV')= 2 Then 
Hees Et)s 
Rng 1F; 
End for; 
End if 


在 算法 3.2 中 ， 步 骤 @~ 几 完 成 了 时 序 关联 图 上 时 序 链 结构 的 合并 ， 步 又 B~ 用 于 建立 新 的 时 序 关联 图 上 各 边 之 间 的 关联 。 
函数 TSC (v，t) 用 于 合并 时 序 链 结构 。 


2. 基 于 稠密 块 的 任务 挖掘 算法 
在 经 过 预 处 理 的 时 序 关联 图 上 进行 任务 挖掘 。 具 体 步骤 如 下 。 


首先 ， 确 定 用 户 的 核心 数据 项 列表 Core List。 将 数据 项 中 被 修改 过 的 定 为 核心 数据 项 Core。 其 中 ， 被 修改 过 即 意 味 着 该 文 
件 经 历 过 操作 类 型 为 Modify 的 用 户 操作 。 


在 获得 了 用 户 每 个 任务 的 核心 文件 Core 后 ， 接 下 来 的 目标 就 是 寻找 与 每 个 任务 核心 数据 项 Core 相 关 的 参考 数据 项 集 
Reference 以 生成 任务 。 


从 每 个 核心 数据 项 ， 寻 找 该 核心 数据 项 在 图 上 的 稠密 块 。 具 体 方法 : 确定 一 个 初始 的 点 集 ， 然 后 使 用 广度 优先 算法 对 该 点 集 
V 中 与 各 点 相连 却 不 在 V 中 的 点 进行 判定 ， 并 将 满足 条 件 的 点 添加 到 点 集 V 中 ， 最 后 的 点 集 V 收 敛 到 核心 数据 项 所 在 的 稠密 块 的 点 
集 上 。 将 每 个 核心 数据 项 所 在 任务 定 为 该 核心 数据 项 所 在 的 稠密 块 包含 的 数据 项 。 

算法 3.3 显 示 了 基于 稠密 块 的 任务 识别 算法 的 详细 步骤 。 

算法 3.3 使 用 初始 点 集 BaseNode 记 录 已 经 被 纳入 任务 的 数据 项 ， 使 用 AdjacentNode 记 录 图 上 所 有 BaseNode 中 的 节点 以 及 
与 之 相 邻 的 节点 。 


步骤 ~ 用 于 建立 一 个 初始 点 集 BaseNode， 这 一 阶段 的 目的 是 将 核心 数据 项 节点 附近 符合 稠密 块 定义 的 节点 纳入 


BaseNode。 


步骤 3~ 外 用 于 扩张 初始 点 集 BaseNode 至 最 大 ， 具 体 做 法 是 遍历 所 有 存在 于 AdjacentNode 而 不 在 BaseNode 中 的 节点 ， 若 
该 点 符合 稠密 块 的 要 求 ， 则 将 其 加 入 BaseNode， 并 将 该 点 的 相 邻 节点 加 入 AdjacentNode。 其 中 increment 是 用 来 指示 点 集 
BaseNode 中 节点 数 是 否 增加 。 


当 点 集 BaseNode 不 再 增加 时 ， 算 法 终止 。 


在 算法 3.3 中 ， 函 数 CoreToNode (ci) 用 于 返回 核心 文件 cj 对 应 的 点 vi， 函 数 Connectivity (v，BaseNode) 用 于 检验 点 v 
是 否 与 BaseNode 中 的 节点 存在 两 条 以 上 的 边 。 


算法 3. 3 挖掘 核心 数据 项 所 在 的 稠密 块 (DenseBlock 算法 ) 


输入 : 经 过 处 理 的 时 序 关 联 图 Ga(CVa，Ea)、 用 户 的 核心 数据 项 列表 Core List、BaseNode、 
AdiacentNode、increment 

输出 : 用 户 的 所 有 任务 列表 Task List 

QD For each Core ci in Core List Do 

© Create Task ti; 

3) BaseNode= empty; 

(4) AdjacentNode= empty; 


(9 Increment= 1; 

(8) V1l= CoreToNode (ci); 

9 Add v1 to BaseNode; 

® Add v1 to AdjacentNode; 

©) For each node v2, v3 adjacent to vl1 Do 
(0 Add v2, v3 to AdjacentNode; 

DD If v2 is adjacent to v3 


(2 Add v2, v3 to BaseNode; 


《2 ) 
B For each node v4 adjacent to v2, v3 Do 
时 Add v4 to AdjacentNode; 
3 End for; 
® End if; 
人 End for; 


(Bwhile increment > 0 Do 

中 | Increment= 0; 

WW For each node v in AdjacentNode, not in 
LY BaseNod 


@ If Connectivity (v, BaseNode) > 1 


四 Then 

| Add v to BaseNode; 

由 Increment= increment+ 1; 

Wy For each node v adjacent to v Do 


If v is not in AdjacentNode Then 


CO add v to AdijacentNode; 
9 EnG 1f; 
8 End for; 


0 End if; 
吧 End for: 
入 End whi le; 


本 节 所 提出 的 任务 识别 方法 是 对 于 任务 识别 这 一 问题 的 初步 解决 ， 由 于 主体 的 多 样 性 及 个 性 化 特征 ， 以 及 主体 行为 的 复杂 
性 ,任务 识别 的 准确 性 还 有 待 提高 ， 任 务 识别 仍然 是 一 个 复杂 的 、 有 待 进一步 解决 的 问题 。 
上 寇 玉 波 ， 李 玉 坤 ， 重 小 峰 ， 等 .个 人 数据 空间 管理 中 的 任务 挖 据 策 略 []] .第 26 届 中 国 数据 库 学 术 会 议论 文集 (了 辑 ) ，2009. 


3.5 让 全 


本 章 主 要 介绍 了 数据 空间 的 集成 方法 ， 包 括 个 人 数据 空间 集成 系统 框架 ， 介 绍 了 个 人 数据 来 源 、 集 成 系统 框架 、 数 据 空间 演 
化 及 用 户 操作 行为 识别 方法 ， 介 绍 了 初始 个 人 数据 空间 的 方法 ， 以 及 如 何 基于 用 户 访问 行为 识别 主体 任务 。 
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4.2 个 人 同义词 识别 


在 日 常生 活 中 ， 用 户 一 般 会 根据 文件 的 内 容 来 命名 文件 等 个 人 信息 ， 对 于 同一 个 信息 ， 往 往 会 有 多 种 不 同 的 表述 方式 ， 这 样 
就 可 能 造成 命名 个 人 信息 所 用 到 的 词汇 和 自己 所 记忆 的 词汇 不 一 致 ， 从 而 为 信息 检索 带 来 问题 。 


4.2.1 个 人 同义词 概述 


首先 用 一 个 例子 来 说 明 一 下 同义词 为 个 人 数据 管理 带 来 的 问题 。 迈 克 是 一 名 研究 人 员 ， 他 想 要 查找 去 年 写 的 一 篇 文档 ， 内 容 
是 他 总 结 的 数据 挖掘 方面 的 论文 列表 ， 但 是 他 忘记 了 该 文档 的 保存 位 置 和 文件 名 。 根 据 一 般 命 名 习惯 ,他 狂想 文件 名 中 可 能 
有 “paper” 或 “list” 等 词语 ， 便 尝试 用 操作 系统 提供 的 桌面 搜索 工具 基于 这 两 个 词语 进行 搜索 ， 系 统 运行 了 很 长 时 间 ， 但 最 
终 没 有 找到 他 想 要 的 文档 。 他 不 得 不 根据 回忆 对 每 个 可 能 的 目录 进行 浏览 ， 最 后 发 现 那 个 文档 的 名 字 是 “The selected 
articles.docx”。 事 实 上 ， 由 于 记忆 力 的 局 限 性 ， 人 们 经 常会 遇 到 类 似 的 问题 。 即 使 对 于 记忆 力 比较 好 的 人 来 说 ， 让 他 们 准确 地 
记 住 长 时 间 不 使 用 的 文档 的 相关 信息 也 不 是 一 件 易 事 。 因 此 ， 这 就 涉及 词语 的 同 义 问题 。 虽 然 目 前 关于 同义词 关系 的 识别 及 应 用 
的 方法 不 少 ,但 针对 个 人 数据 管理 应 用 场景 的 还 未 看 到 ， 为 了 提高 效率 ， 其 所 需要 的 并 不 是 一 个 完备 的 同义词 表 ， 而 是 能 够 满足 
个 人 信息 检索 需求 的 个 性 化 的 同义词 表 。 比 如 ， 一 个 计算 机 领域 的 专家 和 一 个 生物 学 家 的 个 人 同义词 表 可 能 有 很 大 的 区 别 。 


4.2.2 ”个 人 实体 命名 特征 分 析 


在 第 3 章 中 ， 介 绍 了 基于 日 志 的 个 人 信息 搜索 框架 和 自动 收集 用 户 操作 行为 的 方法 ， 作 者 基于 此 方法 开发 了 原型 系统 ， 通 过 
将 原型 系统 安装 在 实验 室 中 一 些 人 的 计算 机 上 并 运行 一 段 时 间 后 ， 收 集 了 8 个 人 的 用 户 桌面 访问 日 志 ， 收 集 后 的 数据 集 以 关系 表 


的 形式 存储 [1 
表 4-1 显 示 了 8 位 参与 者 的 属性 信息 。 不 难 发 现 ， 大 多 数 的 参与 者 都 是 年 轻 的 研究 者 ， 并 且 他 们 比 普 通 人 使 用 计算 机 的 时 间 


要 多 ， 其 中 大 多 数 人 每 天 使 用 计算 机 的 时 间 超过 8 小 时 ， 工 作 内 容 包括 编程 、 写 文档 、 查 阅 资料 等 。 有 时 候 他 们 也 会 用 计算 机 娱 
乐 一 下 ( 听 歌 、 看 电影 等 ) 。 


表 4-1 数据 收集 参与 者 概况 





硕士 生 
贷 士 生 


贷 士 生 





博士 生 


贷 士 生 





博士 生 





本 科 生 
本 科 生 





基于 所 收集 的 数据 ， 发 现 用 户 定义 的 文件 名 有 以 下 特征 : 大 多 数 文件 名 包含 一 些 没有 实际 合 义 的 词语 或 数字 ; @ 文 件 名 中 
出 现 了 许多 同义词 ， 表 现 为 一 个 词语 的 不 同 词性 (名词 、 动 词 等 ) 、 英 语 和 汉语 的 表达 、 相 同意 思 的 不 同 词语 等 情况 。 比 如 ， 用 
户 在 表达 索引 的 时 候 可 能 会 用 “index” “indexing” 或 者 “索引 ”， 在 表达 文章 时 可 能 会 用 “paper” “papers ”或 
者 “article”。 表 4-2 显 示 的 是 对 表 4-1 每 个 用 户 的 文件 名 中 所 包含 的 词语 进行 统计 的 结果 ， 其 中 T_total 表 示 一 个 用 户 所 有 文件 
名 中 包含 的 所 有 词语 的 个 数 ，T_meaningfu| 表 示 其 中 有 实际 意义 的 词语 的 个 数 ,T_synonym 表 示 有 同义词 的 词语 的 个 
数 ，R_Syn 指 的 是 同义词 占 所 有 有 实际 意义 的 词语 的 百分比 。 这 里 用 一 个 在 线 电 子 词 典 网 站 (www.dict.cn) 来 确定 一 个 给 定 词 
语 的 同义词 。 


表 4-2 基于 用 户 日 志 的 同义词 统计 


User T _ total T_ meaningful T_ synonym R_ Svyn(») 





userl 1461 8 L109: 13 





user2 3757 3019 35 LL 3 








user3 2 
user4 15. 02 
USerD ELL; 83 
userb 18. 098 
user7 13. 88 
users 12; 583 











从 表 4-2 可 以 看 出 ， 在 参与 统计 的 8 个 人 中 ，R_Syn 的 最 高 值 是 22.22%， 通 过 对 表 中 8 位 用 户 的 R_Syn 计 算 ， 得 出 平均 值 为 


14.48%， 这 意味 着 当 用 户 用 传统 的 基于 关键 字 的 搜索 方法 查找 个 人 文件 的 时 候 ， 有 14.48% 的 概率 会 遇 到 “选择 哪个 词语 进行 查 
找 ” 的 问题 ， 这 种 情况 下 用 户 可 能 要 尝试 用 不 同 的 词语 进行 查找 。 针 对 这 一 问题 ， 本 章 介 绍 基于 同义词 的 个 人 信息 搜索 方法 。 


四 赵 喜 菩 ， 李 玉 坤 ， 刘 经 雨 ， 等 .基于 同义词 关系 的 个 人 文件 搜索 方法 [J] .小 型 微型 计算 机 系统 ，2013. 


4.2.3 同义词 概念 模型 


概念 模型 用 来 描述 个 人 文件 的 同义词 关系， 虽然 天 于 同义词 的 集合 目前 有 很 多 ， 但 是 要 想 获 得 一 个 完整 的 包括 所 有 同义词 的 
数据 集 实际 上 是 很 困难 的 ， 因 为 同义词 不 仅 包 括 同一 个 语言 的 词语 ， 还 可 能 涉及 不 同 的 语言 、 不 同 的 专业 。 要 想 解决 基于 同义词 
的 个 人 文件 检索 问题 ， 就 需要 一 种 通用 的 、 不 依赖 于 特定 主体 的 同义词 表 建 立方 法 。 个 人 同义词 表 的 建立 自然 基于 主体 建立 个 人 
数据 信息 时 所 用 到 的 词汇 ， 比 如 发 邮件 时 经 常 使 用 的 词汇 、 命 名 个 人 文件 时 经 常 使 用 的 词汇 等 。 为 此 文献 [5，6] 定义 了 以 下 
概念 : 个 人 数据 项 、 个 人 词典 、 词 语 偏好 度 、 同 义 词 图 和 文件 关键 词 向 量 。 


定义 4.1 个 人 数据 项 个 人 数据 项 指 的 是 被 用 户 访问 过 的 文件 。 根 据 定义 ， 个 人 数据 项 并 不 包括 那些 从 来 没有 被 访问 过 的 
系统 文件 。 表 4-3 显 示 了 部 分 个 人 文件 访问 记录 ， 每 个 文件 可 以 看 作 一 个 个 人 数据 项 。 


表 4-3 用 户 的 部 分 访问 记录 











操作 序号 被 操作 的 文件 目录 开始 时 间 结束 时 间 操作 类 型 
a paper on indexing 
] 读 
dataspace. pdi 
2013-01- 
2 an article list. doc 修改 
14: 02 : 
catalog of papers on 2013-01-0 2013-01-001 
3 沁 
dataspace. txt : O65: 14:; 05: 56 
2013=01 2013-01-01] 
| aboutwriting papers. ppt 修改 
14: 07: 15 14: 08: 10 
published papers on 2013-01- 2013-01-01 
5 读 
index. txt 14: 10: 36 











定义 4.2 个 人 词典 个 人 词典 (PV) 是 指 在 命名 或 建立 个 人 数据 项 名 时 用 到 的 有 实际 意义 的 词语 ， 它 被 定义 为 一 个 二 元 组 


集合 (w，t) ， 其 中 w 指 的 是 个 人 数据 项 中 用 过 的 有 实际 意义 的 词语 ，t 指 的 是 这 个 词语 的 使 用 次 数 。 


以 表 4-3 中 的 五 个 文件 为 例 。 这 五 个 文件 的 文件 名 中 共 包含 了 10 个 词语 ， 而 且 对 于 每 一 个 词语 ， 都 能 很 容易 地 计算 出 它们 在 
文件 名 中 的 使 用 次 数 。 表 4-4 中 的 前 两 列 展 示 了 根据 五 个 文件 生成 的 PV 的 一 个 例子 。 


表 4-4 PV 和 WPD 示 例 


词语 使 用 次 数 词语 偏好 度 


paper 0. 2 
papers 0. 6( 


article Qe 





list 0. 5( 


catalog 0. 5 


indexing 0. 5( 





index 0. 5( 


dataspace 





published 








writing 





定义 4.3 词语 偏好 度 ”词语 偏好 度 (WPD) 指 用 户 对 于 一 个 词语 的 喜好 程度 ， 它 被 定义 为 一 个 二 元 组 (w，c) ，w 是 PV 中 
的 一 个 词语 ，c 指 的 是 w 这 个 词语 在 个 人 文件 命名 时 用 户 的 偏好 程度 。 


在 本 章 中 ， 用 W 作 为 同义词 集合 ， 利 用 式 (4.1) 来 计算 PV 中 的 每 一 个 词语 的 WPD， 公 式 中 n 指 的 是 W 集 合 中 的 元 素 个 
数 ，wi 指 的 是 WwW 中 的 任意 一 个 词语 ，wiTimes 指 的 是 w 在 所 有 的 个 人 文件 名 中 出 现 的 次 数 ， 而 这 些 词语 都 来 自 个 人 词典 。 比 如 
(paper，1) 、 (papers，3) 、 (article，1) 是 表 4-4 的 一 组 同义词 。 基 于 式 (4.1) 可 以 计算 出 用 户 对 于 每 个 词 的 偏好 度 ， 
本 例 中 用 户 对 paper、papers 和 article 三 个 词语 的 偏好 度 分 别 为 0.20、0.60 和 0.20。 通 过 这 个 方法 ， 可 以 计算 出 例子 中 用 户 对 每 
个 词语 的 偏好 度 ， 如 表 4-4 所 示 。 
全 (4.1) 


zj »。 Times 
j=] 





定义 4.4 同义词 图 同义词 图 (SG) 指 的 是 基于 PV 中 的 词语 和 它们 的 同义词 关系 所 形成 的 图 。SG 定 义 为 G (V, EE) ， 基 


中 V 是 节点 的 集合 ， 每 一 个 节点 是 PV 中 的 一 个 词语 ， 也 是 边 的 集合 ， 边 已 (vi，vj) 意味 着 词语 Vi 和 vj 之 间 有 同义词 关系 。 


在 本 章 中 ， 主 要 考虑 以 下 几 种 同义词 关系 : @@ 同 一 个 词语 的 不 同 格式 ， 比 如 “index，indexing” 和 “paper，papers” ; 
@ 表 达 同 样 意思 的 两 个 不 同 词语 ， 比 如 “paper，article” 和 “list，catalog”; @ 一 个 词语 的 中 文 表达 方式 和 英文 表达 方式 。 
图 4-1 说 明了 表 4-4 所 显示 的 一 个 同义词 图 ， 这 个 图 忽略 了 PV 中 没有 同义词 的 词语 。 


图 4-1 基于 文件 示例 的 同义词 图 


定义 4.5 ”文件 关键 词 向 量 文件 关键 词 向 量 指 的 是 所 给 文件 名 中 的 词语 根据 词语 偏好 度 排序 后 的 一 个 列表 。 它 被 定义 为 一 
个 向 量 (vi1，v，…，Vi，…，vn) ， 其 中 v; (i 从 1 到 m) 是 所 给 文件 的 一 个 词语 ， 这 个 顺序 是 基于 WPD 所 派生 出 的 ，m 是 文件 名 


中 包含 的 有 实际 意义 的 词语 的 个 数 。 


比如 ， 对 于 文件 “A paper on indexing dataspace.pdf”，“paper “indexing”“dataspace” 包含 在 PV 中 ， 它 们 的 
WPD 值 分 别 为 0.20、0.50、1.00， 因 此 这 个 文件 的 FKV 为 (dataspace, indexing, paper) 。 


4.2.4 同义词 表 的 构建 


本 章 提出 的 方法 是 通过 监控 用 户 对 于 个 人 桌面 文件 的 访问 行为 构建 个 人 词典 (PV) ， 具 体 步 骤 如 下 : @ 当 用 户 访问 的 一 个 
新 文件 被 监测 到 时 ， 系 统 会 对 这 个 文件 的 文件 名 进行 分 词 ， 系 统 中 使 用 的 是 一 个 开源 的 分 词 软 
件 “IKAnalyzer” (http:illcode.google.com/p/ik-analyzer) ， 分 词 后 的 词语 保存 在 PV 中 ; @ 对 于 每 一 个 分 词 后 的 词语 ， 检 
查 它 是 否 在 PV 中 ， 如 果 PV 中 已 经 有 这 个 词语 了 ， 那 么 它 的 次 数 增加 1， 同 时 ， 它 对 应 的 WPD 值 及 其 同义词 的 WPD 值 将 会 进行 重 
新 计算 ,否则 这 个 词语 插入 PV 中 ， 同 时 它 的 使 用 次 数 和 WPD 标 记 为 1。 算 法 4.1 显 示 了 构建 个 人 词典 的 方法 。 


算法 4.1 构建 1 


~、 人 词 盟 

输入 : 新 访问 文件 fn ,访问 文件 集合 已 
输出 : 更 新 后 的 个 人 词典 PV 

DIf fn ¢F' then 

@ 将 


(WElse 


fn 进行 分 词 ， 然 后 得 到 词语 集合 W 
return 


(4)End if 


(WFor each w inW 


(6 If w EPV' then 
上 PV .w.t= PV .w.t+ 1 
QO Else 
Ne add word w to PV 
0 PV'. Ww. t= 1 
Ql 区 蹇 多 工 址 
End for 


个 人 词典 pV 


关于 如 何 确 定 两 个 词 的 同义词 关系 ， 有 许多 方法 可 以 借鉴 和 尝试 。 这 里 介绍 一 种 基于 互联 网 资源 的 在 线 方法 来 自动 识别 同 义 


词 关系 的 方法 ， 假 设 w1 和 w? 是 PV 中 的 两 个 词语 ， 识 别 算法 如 下 : Q@ 将 w1 作 为 在 线 电子 词典 “ 海 词 " 


(www.dict.cn) 的 输 


入 ; @ 通 过 分 析 查 询 结果 网 页 ， 提 取 w1 的 同义词 集合 3; @ 判 断 w2 是 否 在 中， 如 果 在 ， 那 么 在 w1 和 w2 之 间 增 加 一 条 边 。 算 法 


4.2 显 示 了 基于 上 述 方法 自动 构建 同义词 图 的 具体 步 又 。 





输入 : 词语 ws 
的 集合 ，e (Vi， 

输出 : 更 新 后 的 同义词 图 G 
fw gc 


同义词 图 G&G (Vv，E)， 


Vi 和 CG". 


V then 


@ 在 网 站 Dict. cn 上 搜索 w 得 到 同义词 集合 S 


/ 
其 中 G 是 BPYV 


/ 


中 的 词语 集合 ，G .EE 是 边 e(Vi，Vj) 


Vj 是 同义词 关系 


当然 ， 有 许多 互联 网 词典 或 同义词 资源 可 以 选择 使 用 ， 此 处 选择 在 线 电 子 词典 一 一 海 词 作为 确定 同义词 关系 依据 的 主要 原 
因 如 下 : @ 这 个 词典 使 用 非常 广泛 ; @ 返 回 的 查询 页 面 中 既 包 括 英文 的 同义词 ， 也 包括 中 文 的 同义词 ， 这 一 点 很 重要 ， 因 为 实验 


参与 者 都 是 国内 的 教师 或 学 生 ， 个 人 词典 中 往往 既 包含 英文 词汇 ， 也 包含 中 文 词汇 。 


4.3 实体 引用 关系 识别 


人 们 在 编写 文档 的 时 候 ， 有 时 会 引用 其 他 文件 的 信息 ， 如 图 片 、 电 话 号 码 、 邮 件 地 址 、 表 格 等 ， 因 此 ， 引 用 成 为 个 人 数据 项 
之 间 的 一 个 自然 关系 。 如 果 能 够 自动 识别 这 种 引用 关系 ， 将 为 用 户 检 索 相 关 文 档 提供 新 的 线索 ， 从 而 可 以 提高 用 户 的 效率 ， 节 省 
时 间 。 


4.3.1 个 人 数据 引用 关系 概述 


下 面 通过 一 个 例子 对 个 人 数据 项 之 间 的 引用 进行 阐述 。 图 4-2 显 示 了 桌面 文件 之 间 引 用 关系 的 一 个 例子 。 文 件 “Paper 
draft.tex” 是 一 个 LaTex 文 件 ， 其 内 容 是 一 篇 准备 投稿 的 学 术 论 文 ， 其 内 容 包 括 以 下 元 素 : 图 形 、 表 格 、 参 考 文献 、 作 者 信息 
等 ， 而 这 些 元 素 的 内 容 大 部 分 拷贝 或 者 摘自 于 其 他 文件 。 比 如 ， 该 文档 包含 的 三 个 图 片 来 源 于 三 个 图 片 文件 ， 其 扩展 名 为 vsd、 
jpg 和 eps。 表 格 的 数据 通常 会 引用 Excel 文 件 ， 参 考 文献 通常 是 PDF 文 件 或 者 Web 页 面 ， 等 等 。 一 个 人 想 要 查找 一 个 图 片 文 件 ， 
但 他 不 记得 此 图 片 存储 的 文件 夹 和 相关 的 关键 字 ， 只 能 记 住 他 曾经 在 编写 文件 “Paper draft.tex” 时 引用 过 这 个 图 片 文件 ， 那 
么 在 这 种 情况 下 ， 他 便 可 以 首先 利用 现 有 的 工具 找到 这 篇 论文 草稿 ， 然 后 基于 引用 关系 找到 这 个 图 片 文件 。 
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图 4-2 ”桌面 文件 之 间 引 用 关系 的 例子 


如 今 ， 人 们 搜索 桌面 文件 时 使 用 最 多 的 还 是 资源 管理 器 和 桌面 搜索 工具 ， 但 当 人 们 记 不 起 来 文件 存放 位 置 或 关键 词 时 ， 它 们 
就 不 起 作用 了 。 虽然 现在 已 经 有 了 一 些 关于 搜索 桌面 文件 的 工作 ， 但 是 它们 很 少 天 注 引 用 关系 在 用 户 搜索 桌面 文件 时 的 作用 。 现 
在 也 有 一 些 关 于 引用 关系 的 工作 ， 包 括 通过 引用 关系 对 专利 进行 评估 和 排名 ， 利 用 引用 网 络 来 计算 算法 的 相似 性 ， 通 过 考虑 论文 
之 间 的 引用 关系 向 用 户 推荐 更 多 的 论文 文献 ， 但 这 些 工 作 有 如 下 局 限 性 : @ 这 些 工作 是 在 假设 引用 关系 已 知 的 情况 下 进行 的 ， 是 
基于 引用 关系 提出 一 些 方法 来 进行 推荐 或 者 计算 相似 性 ，@ 上 述 工作 所 处 理 的 对 象 是 专利 、 算 法 和 论文 文献 ， 它 们 之 间 的 引用 关 
系 是 显 式 的 。 本 章 将 介绍 作者 所 提出 的 基于 用 户 访问 序列 的 个 人 文件 引用 关系 的 识别 方法 。 


4.3.2 ”基于 访问 序列 的 引用 模型 


怎样 模型 化 引用 关系 是 第 一 个 问题 ， 针 对 此 ， 本 节 提 出 了 基于 访问 序列 的 引用 模型 ， 提 出 并 定义 了 以 下 概念 : 引用 关系 、 桌 
面 访问 行为 、 顺 序 行为 列表 和 顺序 包含 。 


定义 4.6 引用 关系 ”引用 关系 定义 为 R。(f，f) ， 其 中 王 和 名 都 是 个 人 桌面 文件 ， 并 且 扣 被 用 户 创建 或 者 修改 过 ， 即 “ 当 创 


建 或 者 修改 fl 时， 用 户 引 用 了 人 中 的 内 容 ”。 第 一 个 参数 fi 是 引用 项 ， 第 二 个 参数 f 是 被 引用 项 。 


从 定义 可 以 得 知 ，Rc 是 不 对 称 关 系 ， 也 就 是 说 ,如 果 (f1, f2) ERc， (f2,f1) ERc 不 一 定 成 立 。 比 如 ， 如 果 有 一 个 引用 
关系 (“D: \project proposal.doc”，“E: \Department information.doc”) ， 即 用 户 在 编辑 文档 “D: \project 
proposal.doc” 时 ,引用 了 “E: \Department information.doc” 中 的 内 容 。 这 里 “D: \project proposal.doc” 是 引用 
项 ，“E: \Department information.doc” 是 被 引用 项 。 很 显然 ， 引 用 项 的 特征 是 它 被 用 户 修改 过 ， 而 对 于 被 引用 项 ， 它 并 不 
一 定 被 修改 。 

通过 分 析 用 户 行为 操作 ， 有 如 下 发 现 。 大 多 数 情况 下 ， 当 人 们 执行 一 个 引用 操作 时 ， 通 常 首先 打开 被 引用 文件 ， 以 定位 要 引 
用 的 信息 ， 然 后 从 被 引用 文件 中 拷贝 这 些 内 容 到 引用 文件 中 ， 或 者 是 在 引用 文件 中 对 这 些 内 容 进 行 重 写 。 从 行为 模式 可 以 看 出 ， 
在 一 个 引用 操作 中 ， 访 问 引 用 文件 的 时 间 和 访问 被 引用 文件 的 时 间 大 多 数 情况 下 有 重 赤 部分， 这 个 发 现 为 识别 引用 关系 提供 了 解 
决 思路 ， 基 于 此 ， 提 出 了 以 下 概念 。 

定义 4.7 ”桌面 访问 行为 ”桌面 访问 行为 (Desktop Access Activity，DAA) 指 的 是 用 户 访问 桌面 文件 的 行为 ， 它 被 定义 为 三 
元 组 (Fi，O，Th) ， 其 中 Ei 代 表 用 户 访问 的 文件 ，Ot 代 表 操 作 类 型 ， 包 括 “ 只 读 ” 和 “修改 ”，T 指 的 是 这 个 行为 持续 的 时 


间 ， 它 被 定义 为 二 元 组 〈T,，Tej ， 工 指 的 是 行为 的 开始 时 间 ，TIe 指 的 是 行为 的 结束 时 间 。 


比如 ,一 个 三 元 组 (“D: \project proposal.doc” ， “Modification” ， (2013-09-0108: 05: 01，2013-09-0108: 
56: 10) ) 代表 的 是 一 个 用 户 行为 ， 指 的 是 用 户 在 时 间 段 (2013-09-0108: 05: 01，2013-09-0108: 56: 10) 内 ,修改 了 桌 
面 文件 “D: \project proposal.doc”。 如 果 对 收集 的 桌面 访问 行为 按 开 始 时 间 进 行 排序 ， 那 么 可 以 得 到 一 个 顺序 的 行为 列表 。 

定义 4.8 ”顺序 行为 列表 顺序 行为 列表 (Sequential Activity List，SAL) 是 一 个 根据 开始 时 间 排 序 的 行为 列表 。 我 们 定义 它 


为 T= (az，ap，…，ai) ， 其 中 ，ai 是 一 个 桌面 访问 行为 ，aiT at+1.T,， 并 且 ai.F; 取 ai41.FP; (1<i<n-1) 。 


从 定义 可 以 看 出 ， 顺 序 行为 列表 有 两 个 特征 : @ 它 按照 开始 时 间 进行 排序 ，@ 两 个 相 邻 的 文件 代表 两 个 不 同 的 桌面 文件 。 图 
4-3 展 示 的 是 一 个 行为 列表 (a1，a2，a3，a4，a5s，a6，a7) ， 其 中 ，x 轴 是 访问 时 间 ， 时 间 单位 是 分 钟 ，y 轴 是 顺序 行为 列表 。 
每 一 个 矩形 代表 一 个 行为 。 图 中 总 共有 7 个 行为 ， 每 一 个 行为 都 标识 了 开始 时 间 、 结 束 时 间 、 持 续 时 间 和 操作 类 型 。 以 行为 a3 为 
例 ， 它 的 开始 时 间 是 6 分 钟 ， 结 束 时 间 是 9 分 钟 ， 持 续 时 间 是 9-6= 3 分 钟 ， 操 作 的 对 象 是 3， 操 作 类 型 是 “ 读 取 ”。 从 图 4-3 可 以 
看 出 ， 一 些 行为 的 持续 时 间 有 重大 ， 比 如 az 和 a3、a5 和 a6 等 ， 因 此 ， 本 章 提出 了 一 个 新 的 概念 来 模型 化 行为 之 间 的 时 间 重要 关 


顺序 行 为 


, 
; 
4 
(A,R,3) 
I 时 间 / 分 


> 
L1234567 8890 1 12B1151617 1819 0 和 2324 


[SS] 


hi- 





图 4-3 行为 列表 例子 


定义 4.9 顺序 包含 ， 设 [是 一 个 顺序 行为 列表 ，x 和 B 是 两 个 行为 。 如 果 w 的 时 间 全 部 或 者 部 分 包含 8 的 时 间 ， 则 认为 wx 上 顺序 包 
含 8。 定义 它 为 SI-{ (zx，B) lxET，BET，wxTpmBTp 关 名 }。 本 章 中 ， 用 操作 符 “ 一 ”来 代表 这 个 关系 。 如 果 w 上 顺序 包含 5， 那 


么 就 定义 为 一 B。 

从 上 述 定义 中 可 以 看 出 ， 本 章 将 顺序 包含 关系 分 为 以 下 两 类 : 顺序 全 包含 (Sequential Fully Inclusive，SFI) ， 定 义 为 
一 F， 同 时 一 F (oa， B) 是 指 行为 a 的 时 间 顺 序 全 包含 行为 B 的 时 间 ; @ 顺 序 部 分 包含 (Sequential Partially 
Inclusive，SPI) ， 定 义 为 一 P， 一 P (a, B) 指 的 是 行为 c 的 时 间 顺 序 部 分 包含 行为 B 的 时 间 。 以 图 4-3 所 示 的 行为 列表 为 例 ， 
(al，a2) 、 (a2, a3) 和 (a5，a6) 都 具有 顺序 包含 关系 ， 但 是 a2 的 时 间 全 部 包含 a3 的 时 间 ，a5 的 时 间 部 分 包含 a6 的 时 间 ， 


因此 a2 一 Fa3，a5 一 Pak。 


表 4-5 显 示 了 图 4-3 中 所 示例 子 的 顺序 包含 关系 。 从 表 中 可 知 ， 它 有 4 个 顺序 包含 关系 ， 其 中 ， 有 两 个 顺序 全 包含 关系 和 两 个 
顺序 部 分 包含 关系 。 表 4-6 显 示 了 行为 重重 时 间 的 大 小 。 比 如 ， 一 F(a2，a3，3) 指 的 是 a2 和 a3 有 重重， 重 秋 时 间 为 3 分 钟 。 


表 4-5 SI 关系 例子 
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表 4-6 SFI 和 SPI 例 子 
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4.3.3 引用 关系 识别 


基于 上 述 提出 的 概念 模型 ， 本 节 提 出 了 一 个 识别 引用 关系 的 方法 ， 此 方法 包括 三 个 步骤 : 识别 用 户 访问 行为 ， 计 算 行为 的 重 
区 时 间 ， 识 别 引 用 关系 。 


第 2 章 已 经 介绍 了 基于 日 志 的 个 人 信息 搜索 框架 和 识别 用 户 访问 行为 的 方法 ， 同 时 根据 所 提 算 法 开发 了 一 个 可 以 收集 用 户 桌 


面 访问 行为 的 原型 系统 。 本 节 用 六 元 组 {ActivityID，OperatedFile，FileDirectory，StartTime，EndTime，OperationType} 来 
表示 访问 日 志 的 模式 。 

此 原型 系统 被 安装 在 8 位 实验 室 成 员 的 计算 机 上 ， 运 行 并 收集 操作 日 志 。 收 集 后 的 数据 集 以 关系 表 的 形式 存储 。 通 过 分 析 收 
集 的 桌面 行为 日 志 记 录 有 如 下 发 现 。@ 对 于 用 户 来 说 ，“ 再 访问 ”是 桌面 操作 中 一 个 比较 普遍 的 需求 。@ 如 果 一 个 用 户 想 要 在 文 
件 f2 中 引用 文件 f1 中 的 内 容 ， 他 一 般 需 要 遵循 以 下 步骤 : 打开 引用 文件 2， 然 后 打开 被 引用 文件 (1， 在 被 引用 文件 f1 中 定位 信 
息 ， 将 信息 拷贝 到 引用 文件 f2 中 。 


为 了 描述 两 个 行为 的 重 苔 时间 的 计算 算法 ， 本 节 首 先 给 出 了 一 个 新 的 计算 符号 ， 记 为 Sro (t1，t2) ， 其 中 ，t1 和 t2 是 时 间 
间隔 的 两 个 变量 。sTo 是 一 个 二 元 操作 ， 变 量 类 型 是 时 间 间 隔 ， 它 的 结果 是 两 个 时 间 间 隔 [t1，t2] 的 长 度 。 基 于 桌面 访问 行为 


的 定义 ， 桌面 访 问 行为 有 一 个 参数 Tp， 记 为 (Ts，Te) ， 它 代表 的 是 行为 持续 的 时 间 间 隔 ， 对 于 两 个 行为 a1 和 a2， 我 们 用 
STO (a1，a2) 来 代表 两 个 行为 的 重 芍 时间， 并 且 基 于 下 列 公式 计算 它 的 值 。 


S10 al; 1) =min (aTo, aT) -aT, (4.2) 
可 以 基于 式 (4.2) 计算 a2 和 a3、as 和 和 a6 的 重 芭 时 间 。 

STO (a, 23) =min (a2.T, a3.T) -aT =min (13, 9) -6=3 
STO (as, a6) =min (as.T, ao.T.) -acT =min (18, 20) -15=3 


从 所 给 例子 中 可 以 看 出 ， 这 个 公式 可 以 用 来 计算 两 个 行为 重 蔷 时间 的 大 小 。 


怎样 有 效 地 计算 所 有 行为 的 重 羡 时 间 是 一 个 关键 问题 。 基 本 的 方法 是 遍历 两 遍 行为 列表 ， 每 两 个 行为 的 重合 时 间 就 可 以 计算 
出 来 。 这 个 方法 虽然 简单 ， 但 是 时 间 复 杂 度 比较 高 ， 为 O(nxn) ， 其 中 ，n 是 指 行为 列表 中 行为 的 数目 。 通 过 对 收集 的 行为 的 
分 析 ， 每 个 月 的 行为 列表 最 大 的 超过 10000 条 ， 基 于 此 进行 估算 ， 如 果 收 集 一 年 ， 那 么 会 有 120000 个 行为 。 对 于 这 个 数据 集 ， 
计算 的 时 间 复 杂 度 为 0 (120000x120000) 。 因 此 这 个 算法 的 性 能 比较 低 。 


分 析 发 现 : 如 果 两 个 行为 涉及 一 个 引用 操作 ， 那 么 它们 中 至 少 有 一 个 行为 的 操作 方式 是 修改 ， 因 此 ， 对 于 一 个 修改 行为 
a1， 只 需要 关心 那些 在 这 个 行为 附近 上 且 与 它 有 时 间 重 三 的 行为 。 基 于 此 ， 只 需要 遍历 一 遍 行 为 列表 ， 并 且 遍 历时 只 需 考 虑 修改 
行为 ， 当 发 现 一 个 修改 行为 时 ， 只 考虑 那些 与 它 有 重 寺 时间 的 行为 即 可 。 这 个 算法 很 大 程度 上 提高 了 性 能 。 

算法 4.3 显 示 了 识别 任意 两 个 行为 的 重 赤 时 间 的 过 程 。 算 法 的 输入 是 一 个 顺序 行为 列表 ， 输 出 是 一 个 四 元 组 
{ (a1，a2，STO，Type) ;的 集合 ，a1 和 a2 是 两 个 行为 ，a1 是 一 个 修改 行为 ，a1 的 持续 时 间 和 a2 有 重 玛 ，STO 是 行为 a1 和 a2 的 重 
赤 时 间 的 长 度 ，Type 的 值 是 “full” 或 者 “partial”， 意 思 是 a2 全 包含 或 者 部 分 包含 于 a1 中 。 如 算法 4.3 所 示 ， 当 浏览 一 个 修改 
行为 cx 时 ， 它 随后 的 行为 也 会 被 检测 ， 那 些 开 始 时 间 在 行为 c 的 结束 时 间 之 前 的 行为 都 会 被 看 作 顺 序 包含 在 行为 c 中 ， 默 认 的 包 
含 类 型 是 “部 分 包含 ”， 此 外 ， 当 浏览 的 行为 的 结束 时 间 比 a 的 结束 时 间 早 的 话 ， 包 含 类 型 会 被 更 新 为 “全 包含 ”。 因 此 ,浏览 
一 遍 访问 日 志 ， 所 有 关于 时 间 重 赦 的 行为 都 能 被 识别 出 来 。 


算法 4.3 识别 行为 的 重 蕉 时间 


输入 : 顺序 行为 列表 AL' ， 其 大 小 为 SaL 
输出 : 四 元 组 储 全 NR > 次 Sro, Type) 
(DFor(int i= 1; i< = SAL: i++) 


2) If(Al'[i]|. Ot= = Modificati on ) 


For (int j= i+ 1; j< = SAL é&& AL [| Tp: Ts> AL'Li | Tp: Te; j++) 


站 车 a 


(由 Sro= min (AL'[i]. TE Te, Adl |. TP: Té)= AELJJ. Tp Tay 
G) Type= “batial 
© TF (AL [3 ]. Th. Te< Al'T[il]: Tp, Te && S160> 0) 


TYPe= Full 和 


(8 End if 

9 If(Sr ) 

和 在 SI 中 增加 一 条 记录 (AL'[il].ID, AL'[j].ID, Sro, Typeé) 
(UD nd 了 于 

多 End for 

3 End if 

(WEnd for 





f1 和 f2 是 两 个 桌面 文件 ， 根 据 人 们 的 经 验 有 如 下 推测 : @ 如 果 f2 多 次 顺序 包含 在 f1 中 ， 那 么 f2 被 {1 引用 的 可 能 性 更 大 一 些 ; 
@ 如 果 f2 多 次 顺序 全 包含 在 f1 中 ， 那 么 f2 被 {1 引用 的 可 能 性 更 大 一 些 ;@ 如 果 f2 和 f1 同 时 被 访问 的 重 双 总 时 间 更 长 ， 那 么 f2 被 f1 引 
用 的 可 能 性 更 大 一 些 。 根 据 推测 ， 采 用 三 个 参数 来 评估 两 个 文件 的 引用 关系 。 算 法 4.4 展 示 了 方法 的 步骤 。 算 法 的 输入 参数 是 由 
算法 4.3 得 到 的 行为 顺序 包含 关系 的 集合 ， 输 出 是 一 个 五 元 组 (f2，f1，Fl-Times，1-Times，|1-Time) 的 集合 ， 这 里 f1 和 f2 是 两 
个 文件 ，FI-Times 是 全 包含 次 数 ，|-Times 是 包含 次 数 ，1-Time 是 包含 时 间 。 在 算法 4.4 中 ， 首 先 根据 A1 的 文件 名 和 A2 的 文件 名 
对 输入 的 集合 { (A1，A2，STO，Type) } 进 行 排序 。 对 于 那些 表示 同样 的 两 个 文件 的 行为 对 ， 它 们 的 FI-Times、I-Times、|- 
Time 值 的 合计 信息 都 能 计算 出 来 。 


算法 4.4 顺序 包含 文件 识别 

输入 : 行为 顺序 包含 关系 集合 SIA', 其 大 小 为 SsIA 
输出 : 顺序 包含 文件 集合 SI 

基于 A1l. Fi 和 RaA2.Fi， 对 SIRA 排序， 排序 后 为 SIA 


(下 OO 于 下 此 二 三 :和 Tes S98imy 了 二 站 


[4 本 


图 Forl(int j= i; j< = Ssrn&&SIAT[j].Al.Fi= = SIAT[il].Al.Fi; j++) 
由 初始 化 变量 工 time, T times, FI times 为 0; 

@) For (intk= j; k< = Ssm&SIRT[Tk].aA2.PFi= = SIATj].A2.Fi; k+ + ) 
© I time=I time+ SIA[j].S: 


(2 I times= I times+ 1; 
® If (SIA'[k].Al.Type= = Full ) 


四 FI times= FI times+ 1; 


I) End if 
th End for 
@ 1 三 > 


昌 在 SI 中 插入 一 条 记录 (AL'[il].Fi, AL[j].Fi, I times, I time, FI times); 


W@W End for 
(QEnd for 


由 于 识别 引用 关系 的 方法 是 基于 用 户 行为 ， 而 且 用 户 行为 经 常 是 随机 的 ， 因 此 ， 该 方法 的 查 全 率 比较 好 ， 但 是 查 准 率 相对 低 
一 些 。 因 此 ， 这 里 需要 一 个 较 好 的 排序 算法 来 对 与 一 个 文件 具有 引用 关系 的 文件 集合 进行 排序 。 在 此 ， 本 章 提出 了 四 种 方法 来 排 
序 文件 : @ 基 于 全 包含 的 次 数 (FI-Times) 进行 排序 ，@ 基 于 包含 的 次 数 (1-Times) 进行 排序 ，@ 基 于 包含 的 时 间 (Il-Time) 
进行 排序 ;@@ 基 于 被 一 个 给 定 对 象 包含 的 时 间 与 被 所 有 对 象 包含 的 时 间 的 比值 (1-TimesAl-Times) 进行 排序 。 之 所 以 采取 上 
述 第 四 种 方法 排序 主要 是 基于 以 下 假设 ， 即 如 果 一 个 文件 和 其 他 很 多 文件 同时 被 访问 过 ， 它 可 能 是 一 个 被 用 户 随机 访问 的 文件 ， 
从 而 被 其 他 文件 中 某 个 文件 引用 的 可 能 性 比较 小 。 比 如 ， 如 果 一 个 人 经 常 随意 浏览 一 下 某 网 站 的 新 闻 ， 那 么 它 会 被 其 他 文件 顺序 
包含 ,但 是 它 和 其 他 文件 之 间 具 有 引用 关系 的 可 能 性 很 小 。 


为 了 说 明 四 个 排序 值 的 计算 方法 ， 这 里 用 Re (f2，f3) 举 个 例子 。 基 于 四 种 方法 分 别 计算 了 四 个 值 ， 如 表 4-7 所 示 。Q@ 因 为 
f3 只 有 一 次 被 {2 全 包含 ， 因 此 Fl-Times (f2，f3) =1; @ 因 为 f? 全 包含 f3 一 次 ， 并 且 部 分 包含 f3 一 次 ， 因 此 ，|- 
Times (f2，f3) =2; @ 因 为 f2 全 包含 f3 的 时 间 为 3 分 钟 ， 部 分 包含 f3 的 时 间 也 是 3 分 钟 ， 因 此 ，l-Time (f2, f3) =3+3=6; @ 
因为 f2 全 包含 或 者 部 分 包含 f3 两 次 ， 而 且 f3 没 有 被 其 他 对 象 包含 ， 因 此 |-Times/Al-Times (f2，f3) =2/2=1。 


表 4-7 引用 关系 概况 


Re Fl-Times I-Times I-Time I-Times/ AI-Times 

















4.4 数据 版 本 识别 


当 用 户 处 理 个 人 文档 的 时 候 ， 为 了 安全 考虑 ， 经 常 为 一 个 文档 存储 多 个 版 本 ， 这 样 当 对 文件 的 修改 有 问题 的 时 候 ， 可 以 恢复 
到 以 前 的 版 本 。 而 且 ， 有 的 时 候 用 户 也 会 需要 访问 一 个 文档 的 旧版 本 ， 此 外 ， 对 于 4.3 节 讲述 的 关于 文本 引用 关系 的 识别 ， 也 会 
受到 文档 不 同 版 本 的 影响 。 比 如 ， 如 果 一 个 文档 的 版 本 1 引用 了 文件 A， 则 其 后 续 的 版 本 也 应 当 被 看 作 引用 了 文件 A。 因 此 本 节 定 
义 了 文件 之 间 的 版 本 天 系 ， 并 进一步 介绍 文件 之 间 版 本 天 系 的 识别 方法 。 


定义 4.10 ”版 本 关系 ”版 本 关系 (Version Relation，VR) 表示 为 RVR (11，I2) ， 其 中 11 和 Lz 表 示 两 个 数据 文件 ， 了 是 ITz 的 前 


一 个 版 本 。 
版 本 天 系 是 基于 用 户 访问 行为 识别 任务 算法 需要 考虑 的 重要 因素 之 一 ， 下 面 探 讨 版 本 关系 的 识别 算法 。 


实际 上 ， 根 据 人 们 管理 个 人 数据 文档 的 习惯 ， 人 们 往往 倾向 于 用 近似 的 字符 串 命 名 一 个 文档 的 不 同 版 本 文件 ， 而 且 习 惯 于 在 
一 个 相同 的 字符 串 上 添加 不 同 的 后 缀 或 前 缀 来 区 分 不 同文 件 版 本 。 为 了 验证 这 一 结论 ， 进 行 了 以 下 实验 。 实 验 基于 5 个 用 户 个 人 
计算 机 上 的 文件 信息 。 为 每 个 人 选择 20 组 文件 ， 每 组 内 的 文件 具有 版 本 关系 ， 然 后 通过 计算 所 有 两 两 具有 版 本 关系 的 文件 的 文 
件 名 相似 性 并 求 其 平均 值 ， 得 到 一 个 具有 版 本 关系 的 文件 名 字 的 平均 相似 度 Sim。 此 外 ， 对 每 个 人 的 数据 空间 中 的 所 有 文件 ， 两 
两 计算 文件 名 的 相似 性 ， 得 到 一 个 总 体 的 平均 相似 度 Sim'。 在 本 实验 中 ， 采 用 了 基于 编辑 距离 的 方法 计算 两 个 文件 名 字 的 相似 
度 ， 以 下 是 计算 公式 : 
max(size(d;), size(d;)) ed(did; ) 


SNi(Cd ys ; ) 一 | : (4a 
a max(size(d;), size(d;)) 





在 本 公式 中 ，d 和 dj 分 别 表示 两 个 文件 ，size (di) 和 size (dj) 表示 两 个 文件 各 自 的 文件 名 长 度 ，ed (di，dj) 表示 两 个 广 


件 的 编辑 距离 ， 图 4-4 显 示 了 实验 结果 。 





文件 名 相似 度 





I 2 3 4 5 
用 户 


图 4-4 具有 版 本 关系 的 文件 名 相似 度 分 析 


验 结果 为 判定 两 个 文件 是 否 具有 版 本 关系 提供 了 依据 。 


实验 中 发 现 ， 有 些 没有 版 本 关系 的 个 人 数据 文件 同样 具有 比较 高 的 文件 名 相似 度 。 例 如 ， 用 户 从 相机 上 拷贝 出 来 的 一 组 照 
片 ， 往 往 只 是 依靠 尾部 序号 区 分 文件 名 ; 一 些 系 统 软件 或 应 用 软件 自身 的 文件 (类 库 、 图 片 等 ) ， 等 等 。 这 类 文件 虽然 文件 名 相 
似 ， 但 不 是 用 户 自己 生成 的 。 此 处 所 研究 的 版 本 关系 指 的 是 用 户 自 身 生 成 的 文件 之 间 的 版 本 关系 ， 因 此 只 在 用 户 自 己 生成 或 修改 
过 的 文件 下 讨论 版 本 关系 ， 这 样 版 本 关系 识别 算法 就 会 具有 更 高 的 效率 和 准确 度 。 


此 外 ， 也 可 以 通过 一 些 其 他 的 方法 来 识别 版 本 关系 。 


基于 TF/1DF 方 法 计算 两 篇 文档 的 相似 性 。 这 个 方法 具有 以 下 局 限 性 : 这 种 方法 只 能 用 来 计算 文本 文件 的 相似 性 ， 但 是 具有 
版 本 关系 的 文件 可 能 包括 图 片 、 程 序 等 多 种 文件 类 型 。 此 外 ， 由 于 这 种 方法 需要 进行 全 文 分 析 ， 人 往往 效 率 非常 低 ， 不 能 适应 在 线 
的 需求 。 


基于 Jaccard 距 离 的 相似 度 计算 方法 。 这 种 方法 往往 需要 进行 分 词 ， 然 后 基于 分 词 结果 计算 文本 相似 性 。 对 于 非 文本 文件 也 
不 适用 ， 而 且 ， 对 于 汉字 内 容 的 字符 串 ， 其 分 词 本 身 就 是 一 个 比较 有 挑战 性 的 问题 。 


有 学 者 提出 了 基于 文件 名 计算 编辑 距离 的 方法 。 但 是 编辑 距离 的 计算 仍然 是 一 个 复杂 度 很 高 的 NP 完全 问题 ， 当 文件 的 名 字 
很 长 的 时 候 ， 其 比较 的 效率 很 低 。 此 外 ， 用 户 对 文件 名 的 命名 也 很 随意 ， 有 的 时 候 可 能 将 英文 、 汉 字 、 数 字 等 混合 在 一 起 ， 这 也 
为 该 方法 带 来 了 不 便 。 针 对 这 种 情况 ， 通 过 分 析 用 户 对 文件 名 的 命名 模式 ， 进 一 步 提 出 了 更 加 有 效 的 算法 。 


通过 分 析 实 际 的 用 户 文 件 集合 发 现 ， 命 名 新 版 本 文件 时 ， 用 户 往 往 是 在 原来 文件 名 的 基础 上 添加 特定 的 后 缀 或 前 级 。 添 加 的 
后 缀 或 前 级 可 能 是 时 间 、 人 名 等 。 本 书 作者 提出 了 最 大 公共 前 弘 (Largest Common Prefix，LCPr) 和 最 大 公共 后 缀 (Largest 
Common Postfix，LCPo) 的 概念 ， 并 进一步 提出 了 基于 LCPr 和 和 LCPo 判 定 版 本 关系 的 方法 。 计 算 公 式 如 下 : 


miax(size( LOUPi(dss dd;)s SIZe(LOCPo(ds;s d;)) 
Snake Ud = 





max(size(d;), size(d;)) 


(4. 4) 


根据 这 个 公式 ， 可 以 在 O(n) 的 时 间 内 计算 出 两 个 数据 文件 是 否 具有 版 本 关系 ， 这 里 n 是 较 短 文件 名 的 长 度 ， 因 此 时 间 效 
率 很 高 。 基 于 这 个 公式 ， 对 于 任意 给 定 的 文件 ， 可 以 快速 地 计算 出 与 其 具有 版 本 关系 的 其 他 文件 。 


二 5 省 2 


本 章 主要 介绍 了 个 人 数据 融合 问题 及 相关 技术 ， 包 括 个 人 数据 的 同义词 识别 及 个 人 同义词 表 的 构建 方法 ， 此 外 介绍 了 一 种 个 
人 数据 项 之 间 的 关联 关系 一 一 引用 关系 及 其 识别 方法 。 
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第 5 章 ”个 人 数据 存储 


5.1 引言 


用 户 的 个 性 化 使 得 个 人 数据 存储 具有 如 下 特征 : 个 人 数据 存储 在 众多 不 同 的 位 置 中 ， 如 有 的 数据 存放 在 手机 中 ， 有 的 存放 在 
个 人 计算 机 中 ; 个 人 数据 存放 在 不 同 的 系统 中 ， 有 的 存放 在 数据 库 里 ， 有 的 存放 在 文件 系统 中 ， 有 的 存放 在 互联 网 的 服务 器 上 ， 
有 的 存放 在 邮件 中 ; 个 人 数据 具有 多 种 不 同 的 数据 存储 格式 和 索引 结构 ， 有 的 数据 以 关系 数据 库 的 形式 存在 ， 有 的 则 以 XML 或 
HTML 的 形式 存在 。 这 些 特征 要 求 个 人 数据 管理 系统 必须 采用 一 种 更 为 灵活 的 数据 存储 策略 。 


第 ?5 章 ”个 人 数据 仓储 


5.1 引言 


用 户 的 个 性 化 使 得 个 人 数据 存储 具有 如 下 特征 : 个 人 数据 存储 在 众多 不 同 的 位 置 中 ， 如 有 的 数据 存放 在 手机 中 ， 有 的 存放 在 
个 人 计算 机 中 ; 个 人 数据 存放 在 不 同 的 系统 中 ， 有 的 存放 在 数据 库 里 ， 有 的 存放 在 文件 系统 中 ， 有 的 存放 在 互联 网 的 服务 器 上 ， 
有 的 存放 在 邮件 中 ; 个 人 数据 具有 多 种 不 同 的 数据 存储 格式 和 索引 结构 ， 有 的 数据 以 天 系数 据 库 的 形式 存在 ， 有 的 则 以 XML 或 
HTML 的 形式 存在 。 这 些 特征 要 求 个 人 数据 管理 系统 必须 采用 一 种 更 为 灵活 的 数据 存储 策略 。 


5.2 和 存储 模式 


分 布 式 存储 是 个 人 数据 存储 自然 形成 的 一 种 存储 方式 ， 这 是 由 用 户 行为 的 多 样 性 和 不 确定 性 决定 的 ， 比 如 在 某 些 特殊 的 情况 
下 ， 用 户 需 要 快速 记录 某 个 人 的 联系 方式 ， 其 最 直接 的 方法 就 可 能 是 用 手机 将 相关 信息 拍照 下 来 ， 这 样 数据 就 以 文件 的 形式 存放 
在 手机 的 文件 系统 中 ; 有 的 时 候 用 户 在 个 人 计算 机 上 网 的 时 候 ， 看 到 一 篇 非常 有 用 的 论文 或 其 他 文件 ， 就 会 将 其 下 载 到 个 人 计算 
机 中 。 因 此 试图 改变 个 人 数据 的 分 布 式 存储 方式 是 困难 的 ， 但 是 可 以 基于 分 布 式 存储 研究 一 些 相 对 有 效 的 存储 策略 。 


5.2.1 分布 式 存 储 模式 


由 于 工作 场景 限制 、 用 户 习惯 等 主客 观 原因 ， 个 人 数据 分 散人 存储 在 台式 计算 机 、 笔 记 本 电脑 、 手 机 、iPad 等 设备 上 ， 随 着 
众多 服务 商 为 用 户 提供 的 数据 人 存储 服务 不 断 增 多 ， 人 们 可 以 很 方便 地 拥有 众多 的 网 络 人 存储 空间 。 比 如 ， 人 们 可 以 自由 地 申请 多 个 
邮箱 ， 有 些 网 站 为 用 户 提供 免费 的 网 盘存 储 服务 、 日 益 流行 的 云 存储 服务 等 。 人 们 可 以 自由 地 利用 这 些 设备 和 网 络 空间 备份 、 存 
储 、 分 享 个 人 数据 信息 。 图 5-1 显 示 了 分 布 式 个 人 数据 存储 模式 [1]， 个 人 数据 存储 在 不 同 的 个 人 存储 空间 上 ， 每 个 存储 空间 有 本 
地 的 局 部 数据 模式 ， 基 于 这 些 局 部 的 数据 模式 建立 起 全 局 的 数据 模式 ， 各 种 个 人 数据 管理 的 应 用 基于 全 局 数据 模式 。 这 种 存储 方 
式 为 个 人 数据 管理 带 来 挑战 ， 传 统 的 关系 数据 库 通 过 建立 索引 为 用 户 提供 多 种 存 取 路 径 ， 从 而 提高 查询 效率 ， 其 前 提 则 是 数据 库 
必须 集中 存储 ， 而 在 分 布 式 数据 存储 模式 下 无 法 有 效 地 发 挥 作用 。 


局 部 数据 模式 


个 人 存储 空间 个 人 存储 空间 个 人 存储 空间 
(个 人 计算 机 ) (个 人 手机 ) (个 人 网 盐 ) 





图 5-1 个 人 数据 空间 存储 结构 
[1] 李 玉 坤 ， 孟 小 峰 ， 张 相 於 .数据 空间 技术 研究 [J] .软件 学 报 ，2008，19 (8) : 2018-2031. 


5.2.2 ”分 级 数据 存储 


已 有 工作 表明 : 个 人 数据 访问 具有 局 部 性 特征 ， 即 用 户 在 一 段 时 间 之 内 往往 集中 访问 相对 稳定 的 数据 对 象 集合 。 基 于 此 有 学 
者 提出 了 基于 访问 概率 的 个 人 数据 存储 和 索引 策略 1 外 。 具 体 包 括 : 


1. 基 于 访问 概率 的 多 级 数据 存储 策略 


将 “访问 概率 ”定义 为 用 户 对 数据 对 象 访问 的 可 能 性 ， 对 访问 概率 不 同 的 数据 对 象 赋予 不 同 的 优先 级 别 ， 采 取 不 同 的 存储 与 
索引 策略 ， 其 核心 问题 为 访问 概率 的 计算 模型 。 此 外 ， 个 人 数据 存储 设备 和 存储 空间 的 状态 具有 不 稳定 性 ， 需 要 建立 多 个 数据 副 
本 并 存放 在 不 同 的 存储 空间 中 ， 以 降低 查询 操作 对 于 存储 空间 状态 的 依赖 性 ， 但 是 多 副本 往往 导致 额外 的 空间 和 时 间 开 销 ， 需 要 
研究 高 效 的 多 副本 一 致 性 保持 策略 。 相 对 于 前 面 提 出 的 多 级 存储 模式 ， 需 要 研究 与 之 相 适 应 的 多 级 索引 策略 。 


2. 基 于 访问 概率 的 自 适 应 数据 空间 缓存 策略 


个 人 数据 空间 中 每 个 数据 对 象 的 元 数据 信息 (描述 对 象 主要 属性 的 信息 ) 和 具体 内 容 信息 一 般 存 储 在 不 同 的 空间 中 ， 如 果 存 
储 数 据 对 象 内 容 信 息 的 空间 出 现 异 常 ， 即 使 能 够 通过 元 数据 查询 到 该 数据 对 象 的 基本 信息 ， 也 无 法 访问 其 具体 内 容 。 借 鉴 操 作 系 
统 中 的 数据 缓存 思想 ， 本 章 提出 了 基于 访问 概率 的 自 适 应 数据 空间 缓存 策略 ， 基 本 思想 是 : 将 用 户 最 可 能 访问 的 数据 对 象 优先 地 
存放 在 用 户 访问 效率 最 高 的 存储 设备 和 人 存储 空间 中 。 传 统 的 缓存 技术 可 以 借鉴 ， 但 由 于 数据 空间 人 存储 方式 多 种 多 样 (包括 手机 、 
个 人 计算 机 、Web 空 间 等 )， 不 同 存储 方式 在 存储 空间 大 小 和 数据 访问 效率 方面 差异 很 大 ， 使 得 个 人 数据 缓存 问题 变 得 复杂 。 
需要 研究 的 基本 问题 包括 缓存 区 大 小 如 何 确定 、 缓 存 哪 些 数据 、 如 何 选 定 缓存 区 、 如 何 处 理 多 副本 带 来 的 一 致 性 问题 等 。 因 此 需 
要 对 用 户 信息 访问 行为 进行 调查 ,分 析 访 问 行为 背后 的 内 在 规律 。 由 于 用 户 对 数据 的 访问 是 一 个 动态 的 过 程 ， 且 个 人 数据 查询 往 


往 在 线 执行 ， 必 须 设 计 高 效 的 数据 置换 策略 ， 以 尽 可 能 少 地 发 生 数据 调度 ， 保 证 访问 效率 。 此 外 ， 存 储 空间 特性 也 是 不 断 变化 
的 ， 在 这 种 情况 下 ， 数 据 空间 应 该 能 够 自 适应 地 调整 相关 参数 和 调度 方法 。 针 对 这 一 问题 本 章 提出 了 基于 访问 概率 的 多 级 数据 存 
储 策略 和 自 适 应 数据 空间 缓存 策略 。 


[1] 李 玉 坤 ， 孟 小 峰 ， 张 相 於 .数据 空间 技术 研究 [J] .软件 学 报 ，2008，19 (8) : 2018-2031. 
[2] 李 玉 坤 ， 任 标 ， 赵 喜 燕 等 .个 人 数据 管理 技术 研究 [J] .计算 机 科学 与 探索 ，2014 (11) : 1281-1295. 


5.2.3 ”访问 概率 的 计算 


访问 概率 用 来 描述 数据 对 象 与 数据 空间 主体 在 一 个 特定 时 间 内 主体 访问 一 个 数据 项 的 概率 ， 概 率 越 大 ， 说 明 主 体 访问 该 数据 
项 的 可 能 性 越 大 ， 通 过 这 个 参数 可 以 缩小 用 户 查 询 的 数据 集 ， 提 高 查询 效率 ， 同 时 利用 该 参数 也 可 以 进一步 实现 索引 的 优化 。 
5-2 对 数据 空间 的 这 一 特性 进行 了 形象 的 描述 。 在 图 5-2a 所 示 的 数据 空间 中 ， 没 有 天 注 数据 对 象 访问 概率 的 不 同 ， 这 样 对 于 任意 
的 数据 查询 操作 都 必须 进行 整个 数据 空间 的 扫描 ， 效 率 很 低 ， 而 在 图 5-2b 所 示 的 数据 空间 中 ， 利 用 数据 对 象 和 主体 的 距离 表示 
其 相关 程度 ， 距 离 中 心 越 近 的 数据 对 象 具 有 更 大 的 相关 性 ,访问 概率 越 大 。 实 验证 明了 这 种 相关 性 的 存在 ， 如 果 简 单 地 以 近 70 
天 访问 过 的 数据 对 象 作为 核心 数据 空间 ， 那 么 核心 数据 空间 的 数据 量 大 概 只 占 数据 空间 总 数据 量 的 20%， 但 是 访问 的 新 数据 对 象 
属于 核心 数据 空间 的 概率 是 70%。 这 样 通过 设计 相应 的 查询 和 索引 算法 ， 可 以 使 操作 效率 大 大 提高 。 
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图 5-2 ”从 原始 数据 空间 到 核心 数据 空间 


如 何 计算 主体 与 数据 对 象 的 相关 度 是 需要 解决 的 重要 问题 。 为 此 作者 提出 了 两 个 概念 : 相关 度 和 关联 距离 ， 分 别 用 
OW (Object Weight) 和 CD (Correlation Distance) 来 表示 。 这 两 个 参数 是 反比 关系 ， 数 据 对 象 和 主体 的 相关 度 越 高 ， 则 其 
关联 距离 越 短 ， 表 明 其 相关 性 越 强 。 相 关 度 的 计算 基于 用 户 对 数据 对 象 的 访问 频率 。 我 们 初步 提出 了 相关 度 的 计算 公式 : 


OWd=OWdxXS+VFdV (5.1) 


在 式 (5.1) 中 ，S 表 示 一 个 衰减 因子 ，VFd 表 示 最 近 一 天 的 访问 次 数 ， 因 此 ， 公 式 (5.1) 不 仅 考 虑 到 对 数据 对 象 的 访问 次 
数 ， 而 且 考 虑 了 时 间 因素 对 相关 度 的 影响 。 随 着 时 间 的 变化 ， 对 数据 对 象 越 早 访问 ， 对 OWd 参 数值 的 影响 越 小 。S 的 定义 是 一 个 
挑战 性 的 问题 ， 需 要 经 过 大 量 的 实验 确定 ， 而 且 这 也 会 是 一 个 动态 的 变化 值 ， 对 于 不 同 的 主体 ， 在 不 同 的 时 间 可 能 取 值 会 有 不 
同 。 因 此 ，s 的 取 值 是 动态 演化 的 ， 其 演化 规律 也 是 一 个 非常 有 挑战 性 的 问题 。 关 联 距离 计算 非常 简单 ， 等 于 相关 度 的 倒数 。 如 


公式 (5.2) 所 示 。 


CDd=1/OWd (5.2) 


基于 相关 距离 ， 作 者 进一步 提出 了 核心 数据 空间 的 概念 ， 在 第 2 章 对 于 这 一 概念 和 模型 进行 了 细致 的 介绍 。 核 心 数据 空间 是 
动态 变化 的 ， 随 着 主体 的 发 展 变化 ， 一 些 被 频繁 访问 的 数据 项 会 加 入 到 核心 数据 空间 中 ， 相 应 地 ， 核 心 数据 空间 中 的 一 些 长 时 间 
不 被 访问 的 数据 项 会 被 置换 出 去 。 此 外 需要 进一步 济 清 的 是 : 数据 相关 性 和 数据 重要 性 是 两 个 不 同 的 概念 ， 相 关 度 、 关 联 距离 和 
核心 数据 空间 的 定义 是 为 了 提高 用 户 访问 效率 。 一 些 数据 对 象 可 能 由 于 长 时 间 没 有 被 访问 而 被 置换 出 核心 数据 空间 ， 这 只 是 说 明 
近期 访问 该 数据 对 象 的 概率 比较 低 ， 并 非 说 明 其 重要 性 降低 。 





如 第 4 章 所 述 ， 个 人 数据 集成 是 一 种 PAYGO 的 集成 方式 ， 实 体 的 属性 及 实体 之 间 的 关系 是 通过 演化 不 断 被 发 现 的 [JIZIDB]， 
比如 当 用 户 发 现 一 个 文章 的 名 字 中 包含 “NDBC” 的 时 候 ， 其 会 自动 将 该 文章 与 “中 国 数据 库 年 会 ”进行 关联 ， 这 就 要 求 相应 的 
索引 技术 也 支持 这 种 演化 的 数据 集成 模式 ， 下 一 节 将 主要 介绍 个 人 数据 空间 索引 技术 。 
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5.3 ” 倒 排 兹 3 引 近 术 


5.3.1 “” 倒 排 表 


倒 排 表 是 一 个 广泛 地 应 用 于 信息 检索 的 技术 ， 首 先 看 一 下 倒 排 表 是 如 何在 三 元 组 库 中 通过 关键 字 索 引 一 个 实例 的 集合 的 。 在 
数据 空间 中 ， 倒 排 索引 的 叶子 引用 独立 资源 的 数据 项 ， 这 些 数 据 项 可 以 是 一 个 文档 、 关 系数 据 表 中 的 一 条 记录 等 。 图 5-3 显 示 了 
一 个 倒 排 索引 的 示例 由， 每 一 行 表示 一 个 键 值 ， 每 一 列表 示 一 个 来 自 数据 源 的 数据 项 。 





倒 排 表 
图 5-3” 倒 排 表示 例 
为 了 叙述 方便 ， 下 面 看 一 个 个 人 学 术 空 间 的 实体 及 其 关系 示例 。 


图 5-4 显 示 了 学 术 空间 的 几 个 实体 及 其 联系 [站 。 它 包括 三 个 人 员 实 例 p1、p2、p3， 一 个 文章 实例 a1 和 一 个 会 议 实例 c1， 对 于 
每 个 实例 列 出 了 属性 值 和 相关 的 实例 。 例 如 ，a1 有 标题 “Birch: ， 与 它 有 关 的 人 员 的 实例 包括 p1 和 p2， 以 及 会 议 实例 c1。 
这 里 假定 属性 firstrName、lastName 和 nickName 是 name 的 子 属性 ， 并 且 关 系 contactAuthor 是 author 的 一 个 子 关系 。 
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图 5-4 一 个 学 术 空 间 实 体 及 其 关系 的 例子 





firstName 


随 着 Web 不 断 地 动态 变化 ， 实 例 pz 可 能 会 有 新 的 邮箱 出 现 ; 新 发 表 的 论文 可 能 使 得 原来 没有 关系 的 两 个 研究 者 发 生 Co- 


author 关 系 ; 新 召开 的 学 术 会 议 可 能 会 有 新 的 属性 ; 等 等 。 因 此 学 术 空间 系统 的 数据 模式 需要 能 够 适应 数据 源 的 这 种 变化 ， 这 
就 是 一 种 PAYGO 的 数据 集成 ， 索 引 技 术 也 需要 支持 这 种 数据 集成 。 


概念 上 ， 一 个 倒 排 表 是 一 个 二 维 表 ， 其 中 第 i 行 表示 索引 关键 字 Ki， 第 j 列 表示 实例 I， 第 i 行 和 第 j 列 所 确定 的 单元 格 表示 为 关 


键 字 K 在 实例 I 中 出 现 的 次 数 。 如 果 一 个 单元 (Ki，1j) 非 0， 则 称 实例 | 是 在 Ki 上 的 索引 。 表 5-1 展 示 了 针对 图 5-4 所 示 数 据 对 象 的 
倒 排 表 B1, 


表 5-1 对 于 实例 三 元 组 库 的 倒 排 表 
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如 上 描述 的 倒 排 表 并 不 包含 任何 结构 化 信息 ， 基 于 这 样 的 倒 排 表 无 法 实现 “查询 name 属 性 中 包含 关键 字 “Tian” 的 人 的 信 
息 ” 这 一 查询 。 因 此 普通 的 倒 排 表 无 法 支持 针对 属性 的 天 键 字 查询 。 


为 了 支持 上 述 查 询 ， 首 先 ， 数 据 空间 的 数据 模式 需要 能 够 描述 上 述 语义 信息 。 传 统 的 数据 库 技术 虽然 可 以 支持 对 语义 信息 的 
描述 ,但 是 传统 的 数据 库 建立 在 严格 的 数据 模式 之 上 ， 并 不 适应 “从 数据 到 模式 ”的 数据 管理 方式 。 


定义 5.1 基于 三 元 组 的 数据 模式 ”将 来 自 不 同 数据 源 的 数据 模型 化 为 一 个 形 如 (实例 ， 属 性 ， 值 ) 或 者 (实例 ， 联 系 ， 实 
例 ) 的 三 元 组 集合 。 这 样 就 可 以 用 一 个 三 元 组 库 描 述 实例 及 其 关系 的 集合 。 一 个 实例 与 现实 世界 中 的 一 个 对 象 相对 应 ， 并 且 通 过 
一 个 属性 集 来 描述 ， 对 于 每 一 个 属性 可 能 是 单 值 的 ， 也 可 能 是 多 值 的 。 一 个 联系 是 两 个 实例 之 间 的 关系 ， 并 且 联 系 是 有 方向 的 。 


例 5.1 针对 图 5-4 所 示 的 学 术 空 间 的 几 个 实体 及 其 联系 ， 可 以 用 一 个 三 元 组 集合 来 表示 。 其 中 既 包 含 形 如 (实例 ， 属 性 ， 
值 ) 的 三 元 组 , 如 (p1，name，Tian Zhang) 、 (p2，email，ragu@wisa) 等 ; 也 包括 形 如 (实例 ， 联 系 ， 实 例 ) 的 三 元 


组 , 如 (a1，contactAuthor，p1) 、 (al1，publishedin，c1) 等 。 


基于 三 元 组 的 数据 模式 ， 既 可 以 支持 “从 数据 到 模式 ”的 数据 集成 方式 ， 也 为 基于 属性 的 倒 排 索引 提供 了 基础 。RDF 即 是 一 
种 经 常 使 用 的 基于 三 元 组 的 数据 模式 内 。 
[1] X Dong, A Halevy.Indexing Dataspaces [C] .In Proceedings of the 27th International conference on Management of 
Data (SIGMOD) , ACM, 2007: 43-54. 
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5.3.1 “ 倒 排 表 


倒 排 表 是 一 个 广泛 地 应 用 于 信息 检索 的 技术 ， 首 先 看 一 下 倒 排 表 是 如 何在 三 元 组 库 中 通过 关键 字 索 引 一 个 实例 的 集合 的 。 在 
数据 空间 中 ， 倒 排 索 引 的 叶子 引用 独立 资源 的 数据 项 ， 这 些 数据 项 可 以 是 一 个 文档 、 天 系数 据 表 中 的 一 条 记录 等 。 图 5-3 显 示 了 


一 个 倒 排 索引 的 示例 由， 每 一 行 表示 一 个 键 值 ， 每 一 列表 示 一 个 来 自 数据 源 的 数据 项 。 
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图 5-4 一 个 学 术 空 间 实 体 及 其 关系 的 例子 
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随 着 Web 不 断 地 动态 变化 ， 实 例 pz 可 能 会 有 新 的 邮箱 出 现 ; 新 发 表 的 论文 可 能 使 得 原来 没有 关系 的 两 个 研究 者 发 生 Co- 


author 关 系 ; 新 召开 的 学 术 会 议 可 能 会 有 新 的 属性 ; 等 等 。 因 此 学 术 空间 系统 的 数据 模式 需要 能 够 适应 数据 源 的 这 种 变化 ， 这 
就 是 一 种 PAYGO 的 数据 集成 ， 索 引 技 术 也 需要 支持 这 种 数据 集成 。 


概念 上 ， 一 个 倒 排 表 是 一 个 二 维 表 ， 其 中 第 i 行 表示 索引 关键 字 Ki， 第 j 列 表示 实例 I， 第 i 行 和 第 j 列 所 确定 的 单元 格 表示 为 关 


键 字 K 在 实例 I 中 出 现 的 次 数 。 如 果 一 个 单元 (Ki，1j) 非 0， 则 称 实例 | 是 在 Ki 上 的 索引 。 表 5-1 展 示 了 针对 图 5-4 所 示 数 据 对 象 的 
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如 上 描述 的 倒 排 表 并 不 包含 任何 结构 化 信息 ， 基 于 这 样 的 倒 排 表 无 法 实现 “查询 name 属 性 中 包含 关键 字 “Tian” 的 人 的 信 
息 ” 这 一 查询 。 因 此 普通 的 倒 排 表 无 法 支持 针对 属性 的 天 键 字 查询 。 


为 了 支持 上 述 查 询 ， 首 先 ， 数 据 空间 的 数据 模式 需要 能 够 描述 上 述 语义 信息 。 传 统 的 数据 库 技术 虽然 可 以 支持 对 语义 信息 的 
描述 ,但 是 传统 的 数据 库 建立 在 严格 的 数据 模式 之 上 ， 并 不 适应 “从 数据 到 模式 ”的 数据 管理 方式 。 


定义 5.1 基于 三 元 组 的 数据 模式 ”将 来 自 不 同 数据 源 的 数据 模型 化 为 一 个 形 如 (实例 ， 属 性 ， 值 ) 或 者 (实例 ， 联 系 ， 实 
例 ) 的 三 元 组 集合 。 这 样 就 可 以 用 一 个 三 元 组 库 描 述 实例 及 其 关系 的 集合 。 一 个 实例 与 现实 世界 中 的 一 个 对 象 相对 应 ， 并 且 通 过 
一 个 属性 集 来 描述 ， 对 于 每 一 个 属性 可 能 是 单 值 的 ， 也 可 能 是 多 值 的 。 一 个 联系 是 两 个 实例 之 间 的 关系 ， 并 且 联 系 是 有 方向 的 。 


例 5.1 针对 图 5-4 所 示 的 学 术 空 间 的 几 个 实体 及 其 联系 ， 可 以 用 一 个 三 元 组 集合 来 表示 。 其 中 既 包 含 形 如 (实例 ， 属 性 ， 
值 ) 的 三 元 组 , 如 (p1，name，Tian Zhang) 、 (p2，email，ragu@wisa) 等 ; 也 包括 形 如 (实例 ， 联 系 ， 实 例 ) 的 三 元 


组 , 如 (a1，contactAuthor，p1) 、 (al1，publishedin，c1) 等 。 


基于 三 元 组 的 数据 模式 ， 既 可 以 支持 “从 数据 到 模式 ”的 数据 集成 方式 ， 也 为 基于 属性 的 倒 排 索引 提供 了 基础 。RDF 即 是 一 
种 经 常 使 用 的 基于 三 元 组 的 数据 模式 内 。 
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5.3.2 ”属性 倒 排 表 


在 数据 空间 中 ， 人 们 不 满足 于 只 是 基于 关键 字 进 行 查询 ， 而 期 望 能 够 支持 较为 复杂 的 语义 查询 。 比 如 用 户 希 望 查找 摘要 中 含 
有 创建 日 期 为 “2013” 的 所 有 文件 ， 这 里 2013 可 以 看 作 关 键 字 ， 但 是 只 有 创建 日 期 属性 包含 “2013” 关 键 字 的 数据 对 象 才 是 应 
当 返回 的 结果 。 如 果 不 能 够 指定 属性 ， 那 么 就 无 法 满足 这 样 的 查询 需求 。 因 此 数据 空间 应 当 支 持 如 下 两 种 查询 上 ]: @ 谓 语 查询 ， 


通过 一 系列 的 谓语 描述 所 想 要 的 实例 ， 每 一 次 指定 一 个 属性 或 者 相关 的 实例 ，@ 近 邻 天 键 字 查询 ， 通 过 考虑 关系 的 影响 来 扩展 关 
键 字 查询 。 

定义 5.2 属性 谓词 查询 ”谓词 查询 的 输入 是 一 个 谓语 集合 。 每 一 个 谓语 表示 为 (V，{fKI1，…，Kn}) ， 其 中 V 被 称 为 谓 
词 ， 是 一 个 属性 的 名 称 ，K1，…，Ki 是 键 值 。 


属性 谓词 查询 的 含义 如 下 : 返回 的 实例 需要 至 少 符合 一 个 查询 输入 的 谓语 。 如 果 一 个 实例 满足 属性 谓词 V (K1，…，Kn) ， 
其 意味 着 这 个 实例 在 包括 V 属 性 或 V 的 子 属性 上 至 少 包含 天 键 词 K1，…，Kn 中 的 一 个 。 


例 5.2 “在 Sigmod1996 中 查询 Raghu 的 Birch 文 章 ” 是 一 个 数据 空间 查询 ， 其 可 以 被 描述 为 以 下 三 个 谓语 。 例 子 中 的 a1 符 


合 这 个 查询 。 
(title “Birch” ) ， (author “Raghu” ) ， (publishedIn “1996Sigmod” ) 


在 实际 应 用 中 ， 用 户 可 以 用 两 种 方式 指定 查询 谓语 。 第 一 ， 他 们 可 以 通过 一 个 用 户 接 口 指定 一 个 下 拉 菜 单 来 显示 所 有 存在 的 
属性 和 联系 标签 。 第 二 ， 用 户 可 以 按照 一 个 特定 的 语法 来 构建 一 个 查询 ， 指 定 属性 以 及 在 该 属性 下 的 关键 字 。 


定义 5.3 ”近邻 关键 字 查 询 ”对 于 一 个 关键 字 集 合 K| ，…，K,。， 如 果 一 个 实例 满足 如 下 条 件 之 一 ， 则 认为 该 实例 满足 近邻 关 
键 词 查询 : Q 四 该 实例 至 少 包含 {KK1，…，K,} 中 的 其 中 一 个 属性 值 ， 这 种 情况 称 为 相关 实例 ; @ 该 实例 与 一 个 相关 实例 相 联系 ， 


这 种 情况 下 称 为 联系 实例 。 


例 5.3 ”近邻 天 键 字 查询 的 实例 。 


如 图 5-4 所 示 ， 其 显示 了 一 些 实体 及 其 关联 关系 。 考 虑 查询 “Birch” ， 实 例 a1 是 一 个 相关 实例 ， 因 为 a1 的 题目 中 包含 
Birch， 并 且 p1、p2 和 c1 与 实例 a1 相 联系 ， 所 以 是 联系 实例 。 


考虑 一 谓语 查询 中 的 属性 谓语 (V，{K1，.…，Kn}) ， 如 果 一 个 实例 包括 A 属性 的 关键 字 K1.….Kn 中 的 一 部 分 ， 为 了 有 效 地 处 
理 属 性 谓语 ， 索 引 应 该 记录 包括 给 定 天 键 字 的 属性 。 
有 一 些 直 观 的 方法 可 在 索引 中 记录 属性 的 信息 ， 一 种 方法 是 为 每 一 个 属性 建立 一 个 索引 ， 比 如 在 图 5-4 中 ，c1 对 应 两 个 属性 


year 和 name， 那 么 就 在 索引 结构 中 引入 两 个 列 ， 显 然 这 会 增加 显著 的 开销 。 针 对 此 问题 ，Xin Dong 提 出 了 属性 倒 排 表 索 引 策 
略 。 


定义 5.4 ”属性 倒 排 表 (Attribute Inversed List，ATIL) 外 ATIL 是 对 传统 倒 排 表 的 扩展 ， 其 所 对 应 的 索引 项 不 仅仅 是 关键 
字 ， 而 是 包括 属性 及 关键 字 ， 属 性 及 关键 字 之 间 用 特定 符号 〈 本 书 使 用 “//”) 隔 开 。 即 对 于 一 个 数据 项 I[， 当 关键 字 KK 出 现在 I 
的 属性 A 中 的 时 候 ， 就 会 有 一 行 K//A//， 其 对 应 的 数据 项 为 I 的 列 的 值 为 K 在 I 的 A 属性 中 出 现 的 次 数 。 

为 了 使 用 属性 谓语 {A，{K1，...，Kn)} 返 回 一 个 谓语 查询 结果 ， 只 需要 使 用 “关键 字 1| 属 性 ”方式 (K1//A，...，Kn//A//) 进 
行 查 询 ， 然 后 将 各 查询 的 结果 合并 起 来 即 可 。 

例 5.4” 表 5-2 显 示 了 基于 图 5-4 所 示 实 体 及 其 关联 关系 的 属性 倒 排 表示 例 上 Bl]。 例 如 ， 为 了 返回 查询 谓 
语 “LastName”““Tian” 的 查询 结果 ， 首 先 将 其 转化 为 关键 字 查 询 “tian//lastrName//”， 通 过 表 5-2 可 以 看 出 ， 查 询 结 果 为 
p3。 


表 5-2 属性 倒 排 表 


数据 对 象 













1996/ year 0 











title 





Birch 


关键 字 


一 、 
"~ 
Tt 

i 


数据 对 和 象 





Jeff//nickName 
Jie//firdt Name 
Raghu// email 


Raghu//name 


Ramakrishnan//name 


Sigmod//name 


Tian//lastName 








Tian//name 


Wisc// email 





Yahoo//email 


Zhang//name 











尽管 属性 倒 排 表 可 以 支持 基于 属性 的 关键 字 查 询 ， 由 于 Web 数 据 源 中 的 数据 模式 具有 不 一 致 性 ， 因 此 数据 索引 技术 必须 支 
持 这 样 的 特性 。 例 如 在 不 同 的 关于 招聘 信息 的 Web 数 据 源 中 ， 职 位 的 工作 地 点 分 别 用 Place 和 City 表 示 。 这 样 ， 当 用 户 输入 关键 
字 “City// 北 京 ”的 时 候 ， 那 么 尽管 属性 及 关键 字 索 引 项 为 “Place// 北 京 ” 的 职位 信息 也 符合 用 户 的 查询 要 求 ， 但 是 其 无 法 被 


系统 作为 查询 结果 返回 。 


针对 此 问题 ， 下 一 节 将 讨论 中 国人 民 大 学 WAMDM 实 验 室 的 张 相 於 等 提出 的 一 种 灵活 的 自 适 应 索引 策略 (Flexible and 


Adaptive index) ， 简 称 FAX 索 引 上 内。 


[1] X Dong，A Halevy.Indexing Dataspaces 
Data (SIGMOD) , ACM, 2007: 43-54. 
2] X Dong, A Halevy.Indexing Dataspaces 
Data (SIGMOD) , ACM, 2007: 43-54. 
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[和 孟 小 活 ， 刘 伟 ， 蒋 芳 萝 ， 等 .Web 数 据 管理 : 概念 与 技术 [M] .北京 : 清华 大 学 出 版 社 ，2014. 


5.4 ”FAX 索引 


在 介绍 FAX 索 引 结构 [之 前 ， 首 先 对 PAYGO 数 据 集成 中 模式 匹配 的 相关 概念 进行 阐述 。 


[1 孟 小 峰 ， 刘 伟 ， 葛 芳 苑 ， 等 .Web 数 据 管 理 : 概念 与 技术 [M] .北京 : 清华 大 学 出 版 社 ，2014. 


5.4.1 模式 匹配 片段 


在 PAYGO 数 据 集成 中 ， 模 式 匹 配 的 过 程 被 转换 成 一 系列 的 模式 匹配 片段 的 处 理 序列 。 模 式 匹 配 片段 的 形式 化 定义 如 下 。 

定义 5.5 ”模式 匹配 片段 (Schema Mapping Snippet，SMS) SMS 是 以 属性 间 映 射 关系 的 形式 存在 的 完整 模式 匹配 的 一 
部 分 。 其 被 描述 为 一 个 二 元 组 {al ，a2}， 其 中 41 和 a5 表 示 两 个 属性 的 名 字 。 

例 5.5 例如 {College，University} 就 是 两 个 数据 源 间 的 模式 匹配 的 一 个 模式 匹配 片段 ， 例 5.4 中 提 到 的 两 个 属性 Place 和 


City 可 以 组 成 一 个 模式 匹配 片段 (Place，City) 。 


设 有 如 表 5-3 和 表 5-4 所 示 的 两 个 数据 源 ， 在 PAYGO 集 成 中 设 有 3 个 模式 匹配 片段 : {title，pTitle} 、 
{author，pAuthor} 、 {conf.，conference} ， 这 三 个 模式 匹配 片段 分 别 在 不 同时 间 到 达 系 统 中 ， 则 必须 能 够 在 每 个 片段 到 
达 的 时 候 完成 对 各 模式 匹配 片段 的 处 理 。 


表 5-3 ”数据 源 DA 





Id title author conf. 

] Birch Raghu SIGMOD 1996 
2 Dataspace Halevy PODSO6 

3 Dataspace feedback Jeffery SIGMOD 08 








表 5-4 数据 源 DB 


Id pTlitle pAuthor conference 





] Cloud computing Raghu Icde 2009 





2 Deep Web Halevy Cidr 2009 








3 Data ntegration Halevy Pvldb 2009 





假设 三 个 模式 匹配 片段 以 前 文 所 述 的 顺序 到 达 ， 在 第 一 个 片段 {title，pTitle} 到 达 前 ， 如 果 查 询 “ 属 性 title 中 包括 单词 
computing 的 记录 ， 则 只 能 从 数据 源 DA 中 获得 查询 结果 。 但 是 ， 在 模式 匹配 片段 {title，pTitle} 被 系统 接收 并 正常 处 理 
后 ， 由 于 有 了 新 的 属性 匹配 信息 ， 这 个 查询 还 将 从 数据 源 DB 中 获得 更 多 的 结果 记录 。 其 余 两 个 模式 匹配 也 具有 类 似 的 影响 。 


从 这 个 例子 中 可 以 看 到 ，PAYGO 集 成 中 的 挑战 在 于 如 何 及 时 、 正 确 处 理 每 个 模式 匹配 片段 以 保证 能 够 尽快 获得 更 完整 的 查 
询 结果 。 针 对 第 3 章 提 及 的 PAYGO 数 据 集成 ， 总 会 有 新 的 模式 匹配 片段 不 断 出 现 。 因 此 数据 空间 索引 需要 能 够 适应 这 种 模式 匹 
配 片段 的 变化 特性 。 


5.4.2 FAX 索引 结构 


在 介绍 FAX 索 引 结 构 之 前 ， 首 先 介绍 一 个 与 之 相关 的 数据 结构 : 不 相交 集 。 


定义 5.6 不 相交 集 ” 给 定 一 个 元 素 的 集合 S$， 将 其 中 的 元 素 划 分 成 一 些 独立 的 互 不 相交 的 集合 S1，S2，…，Sn。 一 个 不 相交 


集 就 是 一 个 保存 这 样 的 划分 的 数据 结构 ， 记 为 {S1，Sz，…，Sn}， 可 以 为 每 个 集合 Si 制定 标签 Li。 


例 5.6 ”对 于 表 5-3 和 表 5-4 所 示 的 两 个 数据 源 ， 假 设 S 是 两 个 数据 源 上 的 属性 集合 
{title, author, conf., pTitle, pAutjor, conference}， 则 集合 {{title, pTitle},{author, pAuthor}, {conf., conference}} 
是 S 上 的 一 个 划分 ， 其 可 以 称 为 S 上 的 不 相交 集 。 可 以 为 S 上 的 三 个 不 相交 集 指定 标签 为 : title，author，conference。 


倒 排 表 索 引 是 基于 关键 字 的 索引 方法 ， 不 相交 集 为 关键 字 的 划分 提供 了 一 种 方法 ， 因 为 不 同 的 关键 词 之 间 可 能 具有 同义词 关 
系 ， 如 College 与 University。 


在 不 相交 集 上 ， 有 三 类 高 效 的 操作 : 

1) 查找 操作 。 记 为 Find (element) ，element 为 全 集中 的 一 个 元 素 ， 返 回 的 是 该 元 素 所 属 集合 的 标签 。 例 如 ， 如 果 把 
title 和 pTitle 放 到 一 个 集合 中 并 指定 其 标签 为 title， 则 find (title) 和 find (pTitle) 都 将 返回 标签 title。 如 果实 现 方法 得 当 ， 该 
操作 可 以 在 O (1) 的 时 间 复 杂 度 内 完成 。 


2) 并 操作 : 记 为 unify (element1，element2) ， 以 两 个 集合 为 输入 ， 将 它们 合并 成 一 个 集合 ， 其 时 间 复 杂 度 也 是 
O (1) 。 


3) Equivalent_ class (element) : 该 操作 返回 元 素 element 所 属 集合 中 的 所 有 元 素 ， 其 时 间 复 杂 度 为 O(n) ， 其 中 n 为 返 
回 结果 集 的 大 小 。 


表 5-1 已 经 说 明 倒 排 表 是 一 个 二 维 表 结构 ，ATlL 通 过 加 入 属性 值 扩展 了 倒 排 表 结 构 ， 在 ATlL 中 ， 关 键 词 Ki 不 再 是 纯 文本 值 ， 
而 是 包含 了 关键 词 文本 和 属性 信息 的 集合 。 在 此 基础 上 ， 首 先 介绍 一 种 能 够 适应 模式 匹配 片段 变化 的 灵活 索引 结构 : FAX。 


定义 5.7 FAX 索引 FAX 索引 结构 包括 两 部 分 改良 的 ATIL 索 引 和 不 相交 集 ， 也 叫做 SMS 集 。 将 涉及 的 不 同 数据 源 的 所 
有 属性 基于 同 义 关 系 划分 为 一 个 不 相交 集 ， 不 相交 集中 的 每 个 集合 赋予 一 个 标签 。 对 ATIL 索 引 做 如 下 改良 : 将 原来 存储 的 属性 
名 变 成 存储 包含 属性 名 集合 的 标签 。 同 时 ， 用 不 相交 集 来 管理 SMS， 属 于 同一 个 集合 的 属性 是 通过 SMS 相 互 关联 的 。 





例 5.7 ”对 于 表 5-3 和 表 5-4 所 示 的 两 个 数据 源 ， 假 设 S 是 两 个 数据 源 上 的 属性 集合 
{title, author, conf., pTitle, pAutjor,，conference}， 则 集合 {{title, pTitle},，{author, pAuthor}, {conf., conference}} 
是 Ss 上 的 一 个 不 相交 集 。 三 个 不 相交 集 的 标签 分 别 为 title、author、conference。 对 于 一 个 记录 Ri， 如 果 它 的 一 个 属性 pTitle 中 
包含 关键 字 “Cloud”， 且 属性 pTitle 所 在 的 集合 {title，pTitle} 的 标签 是 title， 则 记录 Ri 所 对 应 的 属性 关键 词 
为 “Cloud//title“， 而 不 是 “Cloud//pTitle”。 


5.4.3 ”查询 处 理 


FAX 索 引 为 用 户 提供 了 基于 模式 匹配 片段 的 查询 方法 。 用 户 查 询 时 提交 的 仍 是 形 如 “属性 /文本 ”的 输入 串 ， 但 查询 处 理 过 
程 不 同 于 ATIL 索 引 。 首 先 需要 找到 与 该 属性 具有 语义 映射 关系 的 所 有 属性 ， 然 后 用 找到 的 所 有 属性 来 进行 查询 。 具 体 步骤 如 
下 : 


1) 通过 find (属性 ) 操作 ， 获 得 给 定 属性 的 SMS 标 签 。 因 为 所 有 被 SMS 连 接 的 属性 有 相同 的 集合 标签 。 
2) 将 查询 重 写 成 “集合 标签 // 文 本 ”的 形式 。 


3) 在 倒 排 表 中 进行 前 缀 查询 。 


前 缀 查询 是 相当 快 的 ， 其 复杂 度 是 O(logn) ， 其 中 n 是 倒 排 表 的 容量 。 所 以 一 次 在 FAX 上 搜索 的 时 间 复 杂 度 是 
O (1) +O (logn) ， 即 O (logn) 。 


例 5.8 如 图 5-5 所 示 ， 假 设 {ftitle，pTitile} 是 不 相交 集中 的 一 个 集合 ， 该 集合 的 标签 是 title。 有 一 个 查询 “pTitle Birch” 到 
来 。 从 该 查询 中 可 以 得 知 用 户 想 要 找到 在 pTitle 这 个 属性 中 有 关键 词 “Birch” 的 记录 。 因 此 首先 执行 操作 find (pTitle) 找到 该 


属性 所 在 集合 的 标签 ， 将 查询 变 成 “title Birch”。 然 后 重 写 该 查询 为 “Birchytitle”。 最 后 在 倒 排 表 中 查询 “Birchytitle” 得 到 
最 终结 果 。 
在 处 理 SMS ( title，pTitle ) 在 处 理 SMS ( title，pTitle ) 
之 前 FAX 的 状态 之 后 FAX 的 状态 


关键 词 /属性 2 f 关键 词 /属性 








Birch/title 
Cloud/title 


Birch/title 
Cloud/pTitle 




















unify(title, 有 


倒 排 表 > pr 








{title, pTitle’ {title, plitle! 
不 相交 集 不 相交 集 


图 5-5 ”FAX 中 的 SMS 处 理 


5.4.4 ”索引 更 新 


当 一 个 新 的 SMS 到 来 时 ， 需 要 对 FAX 索 引 结 构 进行 更 新 。 在 相关 的 两 个 属性 上 执行 unify 操 作 。 通 过 该 操作 获得 两 个 属性 共 
同 的 集合 标签 (可 以 随机 从 中 取出 一 个 作为 集合 标签 ) ， 然 后 更 新 ATIL 索 引 中 相应 索引 项 的 属性 为 其 对 应 的 SMS 的 语义 标签 。 


为 了 更 新 ATIL 索 引 ， 首 先 需要 查找 所 有 需要 被 更 新 的 索引 项 ， 然 后 用 新 的 共同 集合 标签 更 新 它们 。 找 到 所 有 索引 项 的 最 简 
单 的 方法 是 扫描 ATIL 所 有 的 索引 项 。 


例 5.9 ”考虑 两 个 数据 项 R1 和 R2，R1 的 属性 title 中 包含 值 Birch，R2 的 属性 pTitle 中 包含 值 Cloud。 这 样 就 在 ATlL 索 引 中 有 了 
两 个 索引 项 : “Birchytitle” 和 “Cloud/pTitle”。 当 一 个 SMS 即 {title，pTitle} 到 来 时 ， 就 需要 更 新 索引 。 首 先 执行 一 个 操作 
unify (title，pTitle) ， 获 得 它们 的 公共 集合 标签 (假设 为 title) 。 然 后 要 扫描 ATIL 索 引 来 查找 包含 pTitle 作 为 属性 的 索引 项 并 
更 新 它们 。 因 此 索引 项 “CloudVpTitle” 就 变 成 了 “Cloudytitle”。 如 图 5-5 所 示 。 


该 方法 索引 更 新 的 时 间 复 杂 度 是 O (n) ， 其 中 mn 是 倒 排 表 的 容量 。 当 n 很 大 的 时 候 ， 对 倒 排 索引 的 修改 是 很 耗 时 的 ， 因 此 
FAX 可 以 提供 高 效 的 查询 处 理 ， 但 是 更 新 索引 的 代价 仍 比 较 大 。 因 此 可 以 对 FAX 索 引进 一 步 改进 。 


5.5 ”UFAX 过 3 引 


5.5.1 索引 结构 
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要 的 区 别 在 于 其 处 理 查询 以 及 更 新 索引 的 方式 。 
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图 5-6 ”UFAX 中 的 SMS 处 理 


5.5.2 ”查询 处 理 与 率 引 更 新 


在 UFAX 中 ， 将 属性 名 而 不 是 集合 标签 存在 ATlL 索 引 中 。 基 于 UFAX 索 引 的 查询 需要 用 到 不 相交 集结 构 上 的 操作 
Equivalent_class (element) 。 其 输入 是 一 个 元 素 ， 返 回 该 元 素 所 在 的 等 价 类 集合 。 该 操作 的 时 间 复 杂 度 是 O (n) ， 其 中 n 是 
不 相交 集中 所 有 元 素 的 数目 。 换 名 话说， 通过 这 个 操作 可 以 得 到 输入 元 素 所 在 的 SMS 集 合 中 所 有 的 元 素 。 


对 于 形式 如 “attribute//keyword” 的 查询 ， 处 理 过 程 如 下 : 

1) 通过 等 价 类 操作 equivalent_class (attribute) 获得 所 有 与 attribute 语 义 上 等 价 的 属性 。 
2) 对 于 每 一 个 返回 的 属性 ， 查 询 ATIL 索 引 来 得 到 记录 。 

3) 将 所 有 查询 返回 的 结果 合并 。 

查询 的 时 间 复 杂 度 是 O (klogn) ， 其 中 n 是 ATIL 的 容量 ，k 是 attribute 所 属 等 价 类 的 容量 。 


例 5.11 UFAX 索 引 的 查询 例子 。 假 如 用 户 查询 “pTitle Birch”。 首 先 执行 操作 equivalent class (pTitle) ， 得 到 等 价 类 
{title，pTitle}。 然 后 处 理 这 两 个 查询 : “title Birch” 和 “pTitle Birch”。 将 这 两 个 查询 翻译 成 前 缀 形式 即 Birchytitle 和 
Birch/pTitle， 最 后 将 这 两 个 查询 得 到 的 结果 合并 起 来 作为 最 终结 果 。 


UFAX 中 的 索引 更 新 相对 简单 ， 不 需要 更 新 ATIL。 因 此 其 时 间 复 杂 度 是 O (1) 。UFAX 中 的 查询 处 理 技术 保证 了 使 用 这 一 更 
新 策略 的 正确 性 。 


5.6 ”小结 


本 章 首先 介绍 了 个 人 数据 人 存储 框架 ， 然 后 对 倒 排 索引 方法 进行 了 讨论 ， 既 包括 传统 的 倒 排 索 引 ， 也 包括 基于 属性 的 倒 排 索引 
策略 。 针 对 数据 空间 的 PAYGO 集 成 特性 ， 本 章 对 一 种 灵活 的 、 自 适应 的 索引 策略 FAX 进 行 了 讨论 ， 包 括 模 式 匹 配 片段 的 概念 、 
FAX 索 引 结构 、 查 询 方法 以 及 索引 更 新 策略 。 为 了 提高 FAX 索 引 更 新 效率 ， 进 一 步 讨 论 了 一 种 基于 FAX 的 扩展 索引 方法 : 

UFAX。 随 着 数据 量 的 不 断 增 加 以 及 服务 要 求 的 不 断 变化 ， 个 人 数据 空间 索引 仍 是 一 个 被 广泛 关注 的 、 有 待 深入 研究 的 课题 。 
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第 6 章 ”查询 处 理 


6.1 引言 


采用 什么 样 的 查询 技术 取决 于 数据 模型 、 人 存储 结构 、 采 用 的 索引 技术 以 及 用 户 的 查询 需求 。 传 统 的 数据 库 查 询 技术 主要 有 两 
类 : 一 类 是 基于 关键 字 的 查询 ， 另 一 类 是 基于 数据 模式 的 结构 化 查询 。 分 布 式 存储 、 多 数据 源 和 模式 松散 的 特点 使 得 个 人 数据 空 
间 查 询 不 同 于 传统 的 数据 查询 。 由 于 缺乏 语义 信息 ， 关 键 字 查 询 的 能 力 和 效率 比较 低 ， 结 构 化 查询 严格 依赖 于 预先 定义 的 数据 模 


式 ， 这 使 得 其 在 具有 “ 先 有 数据 ， 后 有 模式 ”特点 的 数据 空间 中 有 一 定 的 局 限 性 。 此 外 ， 个 人 数据 空间 是 依赖 于 主体 的 ， 主 体 本 
身 的 特点 也 会 对 个 人 数据 空间 查询 带 来 影响 ， 因 此 ， 个 人 数据 空间 应 当 支 持 用 户 查 询 数 据 空间 的 任意 数据 。 多 数据 源 特性 要 求 个 
人 数据 空间 支持 查询 转换 ;对 于 具有 严格 数据 模式 的 数据 源 ， 要 求 个 人 数据 空间 能 够 进行 结构 化 查询 ;对 于 半 结 构 化 和 非 结 构 化 
的 数据 ， 个 人 数据 空间 还 需要 支持 关键 字 查 询 。 因 此 个 人 数据 的 查询 比 传 统 的 方式 更 复杂 ， 涉 及 查询 优化 、 查 询 转换 、 查 询 接 口 


等 多 方面 。 
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等 多 方面 。 


6.2 ”查询 接口 
个 人 数据 空间 面 对 的 用 户 大 都 是 没有 计算 机 专业 知识 的 普通 用 户 ， 因 此 像 SQL、XQuery 等 复杂 的 查询 语言 往往 不 能 被 普通 
用 户 所 接受 。 个 人 数据 空间 需要 一 种 简单 灵活 的 查询 接口 。 


下 面 介绍 一 种 查询 接口 (1]: 用 户 需要 输入 的 是 一 个 包含 与 (and) 、 或 (or) 、 非 (not) 三 种 基本 操作 的 逻辑 表达 式 ， 该 
逻辑 表达 式 中 每 个 逻辑 变量 是 一 个 形 如 “E1\E2\http://www.hzcourse.com/resource/readBook? 


path=/openresources/teach ebook/uncompressed/16288/OEBPS/Text/..\En” 的 表达 式 。 


表 6-1 显 示 了 几 个 查询 逻辑 表达 式 示 例 。 


表 6-1 数据 空间 查询 示例 及 其 含义 


查询 含义 


Type \ PDF 类 型 为 PDF 的 所 有 数据 项 





Type \ JPG and Place\ 下 : 类 型 为 JPG 日 存放 位 置 为 E: 的 所 有 数据 项 


类 型 为 JPG 或 VSD， 是 没 有 存放 在 D: 或 E; 





(type \ JPG or type \ VSD)and not(place DD. 


or place E:) 的 所 有 数据 项 





可 以 看 出 该 查询 接口 具有 以 下 特征 : 

1) 简单 灵活 ， 用 户 不 必 记 忆 复 杂 的 语法 。 

2) 与 用 户 记忆 和 分 类 习惯 相 一 致 ， 用 户 可 以 基于 记忆 习惯 自然 地 输入 查询 条 件 ， 而 不 必 记 忆 复 杂 的 语法 。 
3) 可 以 表达 一 定 的 查询 语义 。 基 于 该 查询 接口 用 户 可 以 实现 大 部 分 的 语义 查询 。 

4) 没有 涉及 连接 、 聚 集 等 复杂 的 查询 操作 。 以 后 可 以 通过 对 其 进行 扩展 满足 更 多 复杂 的 查询 功能 。 


虽然 该 查询 接口 已 经 比较 简单 ， 但 是 对 于 普通 用 户 来 说 ， 可 能 希望 更 加 简单 的 可 视 化 查询 接口 ， 而 不 必 手工 输入 查询 条 件 。 
第 2 章 介绍 的 核心 数据 空间 模型 为 人 们 提供 了 一 个 基于 记忆 行为 的 分 类 结构 ， 如 果 数 据 空间 系统 能 够 将 核心 数据 空间 的 分 类 结构 
自动 地 转化 为 一 个 导航 式 的 树 形 查询 接口 ， 用 户 可 以 通过 该 接口 ， 利 用 可 视 化 的 方式 选择 查询 条 件 ， 则 会 大 大 简化 用 户 操作 ， 提 
高 查询 效率 。 


例 6.1 图 6-1 示 出 了 包含 文件 类 型 、 存 放 位 置 两 个 维度 的 查询 接口 。 其 中 星 号 “*” 表示 用 户 指定 的 查询 条 件 。 





图 6-1 数据 空间 查询 接口 示例 


基于 这 种 导航 式 多 面 查询 接口 ， 用 户 可 以 利用 可 视 化 的 方式 输入 查询 条 件 。 但 是 ， 对 于 用 户 所 表达 的 查询 需求 ， 可 以 有 多 种 


不 同 的 语义 解析 方式 。 比 如 ， 在 图 6-1 所 描述 的 示例 中 ， 用 户 所 指定 的 条 件 可 能 是 “或 ”的 关系 或 是 “ 且 ” 的 关系 。 因 此 还 需要 
解决 用 户 输入 的 解析 问题 ， 即 将 用 户 在 可 视 化 查询 接口 的 选择 自动 地 映射 为 一 个 查询 逻辑 表达 式 ， 基 于 该 逻辑 表达 式 就 可 以 完成 
数据 查询 。 


[1] Y Li, X Meng.Exploring Personal CoreSpace for DataSpace Management [Cj] .In Proceedings of the 5th International Conference on 


Semantic, Knowledge and Grid (SKG) , 2009: 168-175. 


6.3 ”基于 同义词 的 天 键 字 得 询 


个 人 数据 来 源 于 多 种 数据 源 ， 其 中 非 结构 化 数据 仍然 会 占据 很 大 一 部 分 。 针 对 非 结构 化 数据 ， 关 键 字 查 询 仍然 是 主要 的 查询 
技术 。 即 使 将 非 结构 化 数据 进行 结构 化 处 理 以 后 ， 基 于 属性 的 关键 字 查 询 仍 是 重要 查询 方式 之 一 。 关 键 字 查 询 的 前 提 是 用 户 需要 
能 够 准确 地 回忆 出 所 查询 的 数据 对 象 包含 的 关键 字 信息 。 由 于 人 的 记忆 行为 具有 一 定 的 规律 (1 中 Bl， 记 忆 力 也 有 一 定 的 局 限 性 ， 
因此 针对 查询 的 数据 对 象 ， 人 们 能 够 回忆 起 来 的 属性 名 称 和 属性 取 值 往往 是 模糊 的 和 内， 这 就 导致 普通 的 关键 字 查 询 方法 无 法 很 好 
地 满足 数据 空间 的 查询 要 求 。 


例 6.2 ” 表 6-2 显 示 了 一 个 包含 5 个 文件 实体 的 数据 空间 示例 。 其 属性 包括 用 户 、 文 件 名 、 人 存储 位 置 和 访问 时 间 。 用 户 在 表 


达 “ 索 引 ” 语 义 的 时 候 ， 可 能 会 用 “index” “indexing” 或 者 “索引 ”， 在 表达 文章 时 ， 可 能 会 用 “paper” “papers” 或 
者 “article”。 这 样 ， 当 用 户 需 要 查询 文件 “A Article list.doc” 的 时 候 ， 就 会 遇 到 这 样 的 问题 : 应 该 选用 关键 字 “paper” 还 
是 “article” 进 行 查询 ? 


表 6-2 数据 空间 的 部 分 文件 示例 











用 户 存储 位 置 访问 时 间 

userl A Paper on Indexing Dataspace. pdf E: 13=1=L 414.,. O00... 0 
User] A Article list. doc E: 13-]=1 14.. 02., 10 
userl Catalog of papers on dataspace. txt E: 13-1-1 14: 05: 30 
userl About writing papers. ppt E: 13-1-1 14. 07; 15 
user] Published papers on index. txt E: LE3=1 lM4:: 10; 36 








查询 信息 的 模糊 性 主要 是 因为 语义 表达 的 多 样 性 造成 的 ， 一 种 语义 往往 具有 多 种 表达 方式 。 这 个 问题 可 以 通过 识别 不 同 词汇 
之 间 的 同义词 关系 来 应 对 。 第 4 章 介绍 了 个 人 数据 词典 和 个 人 同义词 图 的 概念 。 


例 6.3 ”以 表 6-2 所 示 的 数据 空间 为 例 。 这 5 个 文件 的 文件 名 中 共 包含 了 10 个 词语 ， 这 10 个 词语 ， 就 构成 了 一 个 个 人 数据 词汇 


表 {paper，indexing，dataspace，article，list，catalog，papers，writing，published，index)}。 


例 6.4 图 6-2 显 示 了 表 6-2 所 示 文 件 构成 的 个 人 数据 空间 的 同义词 图 。 





图 6-2 ”基于 文件 示例 的 同义词 图 


个 人 数据 查询 主要 考虑 以 下 几 种 同义词 关系 : 

1) 同一 词语 的 不 同 格 式 , 比如 “index,，indexing” 和 “paper, papers” 。 

2) 表达 同样 意思 的 不 同 词语 ， 比 如 “paper，article” 和 “list，catalog”。 

3) 一 种 含义 不 同 语言 的 表达 ， 例 如 同一 个 含义 用 中 文 和 英文 的 不 同 表达 。 

4) 数据 空间 所 面 对 的 主题 领域 内 特定 含义 的 词汇 及 其 缩写 表达 方式 ， 如 数据 库 领域 的 学 术 会 议 及 其 缩写 等 。 


通过 识别 上 述 同义词 关系 ， 当 人 们 可 以 记 住 词语 合 义 而 不 能 记 住 确切 的 关键 词 时 ， 就 可 以 通过 同义词 关系 查询 到 需要 的 数据 
项 。 基 于 同义词 的 查询 策略 主要 有 两 种 : 


1) 离线 的 查询 策略 。 需 要 离线 地 构建 数据 空间 同义词 图 ， 这 种 查询 策略 的 优点 是 查询 速度 比较 快 ， 但 是 需要 对 同义词 图 进 
行 实时 更 新 ， 更 新 代价 比较 大 。 


2) 在 线 的 查询 策略 。 这 种 方式 在 线 地 将 用 户 的 查询 需求 进行 分 词 ， 并 通过 Web 资 源 在 线 获取 用 户 输入 词汇 的 同义词 ， 并 基 
于 输入 的 词汇 及 其 同义词 进行 查询 处 理 。 其 优点 是 可 以 节省 同义词 图 的 存储 和 维护 开销 ， 但 是 查询 效率 会 受 影响 。 


本 节 主 要 介绍 基于 同义词 概念 模型 的 搜索 策略 。 此 搜索 策略 主要 按照 图 6-3 中 的 流程 进行 文件 搜索 操作 。 由 于 该 搜索 策略 是 
基于 同义词 概念 模型 进行 搜索 的 ， 因 此 ， 在 搜索 执行 前 ， 需 要 构建 同义词 概念 模型 中 的 个 人 桌面 词典 ， 并 且 也 需要 识别 词语 之 间 
的 同义词 关系 ， 同 时 ， 基 于 同义词 关系 建立 同义词 图 。 
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输入 关键 词 









在 同义词 图 中 
查询 是 否 存在 
该 关键 词 的 同 
义 词 集合 


看 







将 该 关键 词 利用 字符 
ee 在 用 
日 志 记 录 中 查询 相 


将 同义词 集合 与 关 应 的 文件 
键 词 进 行 合 并 


将 合并 后 的 词语 ， 利 用 字符 串 
匹配 的 原则 ， 在 用 户 日 志 记 录 
中 查询 相应 的 文件 


图 6-3 ”搜索 策略 流程 图 
[1] D Elsweiler, M Baillie, I Ruthven.Exploring Memoty in Email Refinding [J|] .ACM Transactions on Information 
Systems, 2008, 26 (4) . 
2] D Rubin, A Wenzel.One Hundred yeats of Forgetting: A Quantitative Desctiption of Retention [J] .Psych Bull.1996, 103 (4) : 
734-760. 
BB] E Tulving.Elements of Episodic Memory [M] .UK: Oxford University Ptess，1983. 
[4] YLI, XZhao, Y Xiao, X Wang.Searching Desktop Files Based on Synonym Relationship [C] .In Proceedings of the 10th Conference 


on Web Information Systems and Applications Conference (WISA) , IEEE, 2013: 483-488. 


6.4 多 属性 组 合 查 询 


数据 空间 查询 往往 是 多 属性 组 合 查询 。 第 2 章 提出 的 核心 数据 空间 模型 为 用 户 提供 了 基于 多 属性 的 数据 空间 组 织 方法 1。 


[1] Y Li, X Meng.Exploring Personal CoreSpace for DataSpace Management [C] .In Proceedings of the 5th International Conference on 


Semantic, Knowledge and Grid (SKG) ，2009: 168-175. 


6.4.1 ”数据 分 类 结构 


为 了 基于 核心 数据 空间 模型 进行 多 属性 组 合 查询 ， 首 先 需要 设计 一 个 数据 空间 分 类 结构 [1， 具 体 包括 : 确定 一 个 核心 数据 空 
间 需 要 包括 哪些 坐标 轴 ; 每 个 坐标 轴 需 要 包含 哪些 坐标 值 。 在 核心 数据 空间 中 ， 每 个 坐标 轴 代 表 数 据 对 象 的 一 个 属性 ， 每 个 坐标 
值 对 应 一 个 属性 值 。 而 且 这 些 属性 和 属性 值 应 当 是 用 户 容易 记忆 的 。 


例 6.5 图 6-4 显 示 了 一 个 针对 个 人 数据 空间 的 分 类 结构 。 其 主要 考虑 了 10 个 基本 属性 。 原 因 在 于 : 


1) 这 些 属性 是 较 易 获 取 的 。 


— 


2) 这 些 属性 是 用 户 经 常 记忆 并 可 能 用 于 查询 的 。 


核心 数据 空间 





日 然 属性 基于 用 户 属 性 关键 子 属性 








访问 
次 数 





图 6-4 ”核心 数据 空间 分 类 结构 

基于 此 分 类 树 本 书 提出 了 一 个 实际 的 核心 数据 空间 ， 其 包含 如 下 10 个 坐标 轴 : 文件 名 称 、 类 型 、 最 近 访 问 时 间 、 大 小 、 路 
径 、 来 源 、 访 问 次 数 、 访 问 类 型 、 相 关 任 务 、 关 键 字 集 合 。 

确定 坐标 轴 之 后 ， 要 确定 各 坐标 轴 的 坐标 值 。 最 基本 的 方法 是 枚 举 出 每 个 坐标 轴 所 有 可 能 的 属性 值 。 这 个 方法 具有 以 下 缺 
点 : 有 些 坐标 轴 会 有 太 多 的 坐标 值 ， 使 用 户 不 能 方便 地 记忆 和 选择 。 例 如 ， 类 型 是 一 个 经 常 使 用 的 属性 ， 如 果 列 举 出 所 有 可 能 能 
属性 ， 可 能 会 有 几 百 个 ， 而 其 中 很 大 部 分 是 用 户 很 少 使 用 或 从 来 没有 访问 过 的 。 因 此 应 当 基 于 用 户 记 忆 规律 为 每 个 坐标 轴 选 择 坐 
标 值 并 进行 分 类 。 

例 6.6 ”以 例 6.5 所 示 的 分 类 结构 为 例 ， 各 坐标 轴 及 其 坐标 值 可 以 设计 如 下 : 

1) 文件 名 称 。 不 同 的 用 户 往往 有 不 同 的 命名 习惯 。 例 如 有 的 人 习惯 用 英文 命名 文件 ， 有 的 则 习惯 用 中 文 。 基 于 此 将 文件 名 
分 为 两 类 : 英文 文件 名 以 及 包含 中 文 的 文件 名 。 


2) 路 径 (目录 ) 。 目 录 树 是 一 个 自然 形成 的 文件 分 类 树 ， 采 用 目录 树 这 一 自然 形成 的 存储 结构 作为 目录 坐标 轴 的 坐标 值 。 


3) 大 小 。 通 常情 况 下 人 们 很 少 能 够 记 住 文件 的 准确 长 度 ， 但 是 往往 可 以 记 住 其 大 致 的 长 度 特征 。 例 如 ， 用 户 可 能 记 住 某 个 
文件 “其 只 有 一 页 ， 长 度 不 超过 1MB”。 基 于 此 将 文件 长 度 进行 如 下 划分 { (0，100KB) ， (100KB，1MB) ， 
(IMB, 10MB) , (10MB, %) }。 


4) 最 近 访 问 时 间 。 每 一 个 文件 都 有 三 个 与 时 间 相关 的 文件 属性 : 文件 创建 时 间 、 最 近 访 问 时 间 和 最 近 修改 时 间 ， 对 一 个 用 
户 来 说 ， 记 住 准确 的 建立 时 间 和 修改 时 间 是 很 难 的， 但 其 可 以 记 住 最 近 访问 的 大 致 时 间 。 例 如 ， 用 户 可 回忆 起 “在 上 个 月 曾经 访 
问 过 该 文件 ”。 基 于 此 将 该 坐标 轴 坐 标定 义 为 假 近 一 周 访问 过 、 最 近 一 月 访问 过 、 最 近 一 年 访问 过 ， 一 年 以 前 访问 过 }。 


5) 文件 类 型 。 为 了 使 用 户 能 够 更 加 容易 地 选择 类 型 ， 利 用 扩展 名 作为 文件 类 型 的 坐标 值 是 很 自然 的 事情 。 为 了 尽 可 能 减少 
坐标 的 数量 ， 将 用 户 曾 经 访问 过 的 所 有 文件 扩展 名 的 并 集 作 为 该 坐标 轴 的 坐标 值 。 

6) 来 源 。 文 件 往 往来 自 不 同 的 数据 源 。 例 如 ， 有 的 来 自 Web， 有 的 来 自 其 他 人 ， 有 的 是 用 户 自己 生成 的 。 让 用 户 对 每 个 文 
件 来 源 手工 进行 标注 会 造成 很 大 的 不 便 。 根 据 用 户 的 查询 需要 对 文件 来 源 进 行 一 个 基本 的 划分 : {自己 生成 的 文件 ， 来 自 其 他 数 
据 源 的 文件 }。 

7) 访问 次 数 。 对 于 不 同 的 文件 ， 用 户 访问 的 次 数 不 同 。 访 问 次 数 在 一 定 程度 上 表示 了 用 户 与 该 数据 文件 的 相关 度 ， 或 该 文 
件 对 于 用 户 的 价值 ， 该 属性 可 以 用 于 查询 结果 的 排序 。 

8) 访问 类 型 。 用 户 有 时 需要 浏览 访问 自己 生成 并 修改 过 的 数据 文件 或 只 阅读 过 的 文件 。 基 于 此 将 该 坐标 轴 的 坐标 值 设 定 为 
两 个 : 用 户 修 改过 的 数据 文件 、 用 户 只 读 过 的 数据 文件 。 


9) 相关 任务 。 任 务 是 用 户 查询 文件 时 的 一 个 主要 因素 ， 基 于 此 将 用 户 任 务 作为 一 个 坐标 轴 ， 其 坐标 值 为 用 户 曾 经 完成 或 正 
在 执行 的 基本 任务 ， 从 而 使 得 用 户 可 以 实现 基于 任务 的 查询 。 


10) 关键 字 集 合 。 基 于 关键 字 搜索 日 益 成 为 被 用 户 经 常 使 用 的 查询 方式 ， 将 一 些 关 键 字 作为 该 坐标 轴 的 坐标 值 ， 可 以 实现 
基于 天 键 字 的 查询 。 


基于 例 6.5 和 例 6.6 所 示 的 分 类 结构 及 以 上 关于 各 坐标 轴 上 的 坐标 值 ， 可 以 构建 一 个 核心 数据 空间 。 


[1] Y Li, X Meng.Exploring Personal CoreSpace for DataSpace Management [Cj] .In Proceedings of the 5th International Conference on 


Semantic, Knowledge and Grid (SKG) ，2009: 168-175. 


6.4.2 ”查询 处 理 算法 


查询 处 理 的 关键 是 用 户 输入 的 语义 解析 。 基 于 6.2 节 介绍 的 查询 接口 ， 用 户 输入 可 以 转化 为 一 棵 语法 树 ， 树 的 根 节点 
为 “root”， 中 间 节 点 为 逻辑 运算 符 “and” “or” 或 “not”， 叶 节点 是 不 包含 逻辑 运算 符 “and” “or”“not” 的 简单 条 件 
表达 式 。 


例 6.7 图 6-5 为 查询 表达 式 ”(type \ jpg or type \ vsd) and not (place\D: or place\E: ) ”对 应 的 语法 树 的 结 
构 。 
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图 6-5 查询 输入 语法 树 示例 
查询 处 理 算法 如 下 : 
第 一 步 ， 基 于 叶子 节点 对 应 的 简单 条 件 ， 查 询 每 个 满足 条 件 的 数据 项 集合 。 
第 二 步 ， 从 叶子 节点 开始 ， 逐 步 计算 满足 其 上 层 组 合 条 件 的 数据 项 集合 。 
假设 a 和 b 是 两 个 条 件 表达 式 ，Sa 和 Sb 是 它们 对 应 的 数据 项 集合 。 上 述 第 二 步 具 体 计 算 方法 如 下 : 


如 果 条 件 表达 式 a 和 b 是 “and” 运 算 , 则 S (a and b) =SanSb, S (a and not b) =Sa-Sb， 其 中 “mn” 为 集合 的 交 运 
“-” 为 集合 的 差 运 算 。 


如 果 条 件 表达 式 a 和 b 是 “or” 关 系 , 则 S (a or b) =SaUSb, S (a or not b) =SaU (S-Sb) ， 其 中 “U” 为 集合 的 并 运 
“-” 为 集合 的 差 运算 ，S 为 数据 空间 所 有 数据 项 集合 。 


例 6.8 “以 图 6-5 所 描述 的 语法 树 为 例 ， 查 询 处 理 方法 如 下 : 
首先 ， 基 于 叶 节点 ， 查 询 出 以 下 数据 项 集合 : 
1) 满足 条 件 “type \ vsd” 的 数据 集合 Rtype \ vsd。 


2 


— 


满足 条 件 “type \ jpg” 的 数据 集合 Rtype \ jpg。 

3) 满足 条 件 “place \ D: ”的 数据 集合 Rplace \D: 。 

4) 满足 条 件 “place \ E: ”的 数据 集合 Rplace\E: 。 

然后 ， 逐 步 向 上 计算 ， 最 终 得 到 结果 : 

(Repesvsd U Riypesjpg) - (Rplace\D: URplace\E: ) 

针对 基于 分 类 结构 的 可 视 化 查询 接口 ， 用 户 选择 的 查询 条 件 最 终 需 要 转化 为 逻辑 表达 式 才能 进行 查询 处 理 。 
分 析 用 户 操作 行为 发 现 ， 用 户 对 多 属性 查询 接口 的 选择 输入 与 运算 类 型 之 间 有 如 下 关系 : 


1) 在 分 类 树 中 ， 同 时 选择 两 个 兄弟 节点 ， 如 选择 “type\jpg” 和 “type \ vsd”， 其 隐 含 的 查询 语义 往往 是 “或 ”的 关 


2) 用 户 选择 两 个 非 兄弟 节点 ， 如 “type \jpg” 和 “place\D: ”， 用 户 隐 含 的 查询 语义 往往 是 “与 ”的 关系 。 基 于 此 提 
出 了 如 下 查询 处 理 逻 辑 。 


假设 A 和 B 是 用 户 在 多 维 分 类 树 上 选择 的 两 个 节点 (在 分 类 树 上 一 个 节点 代表 一 种 分 类 属性 ) ， 如 果 A 和 B 是 兄弟 关系 (兄弟 
节点 就 是 指 具 有 同一 个 父 节点 的 节点 ) ， 则 表示 “A 且 B”; 否则 表示 “A 或 B”。 

例 6.9 ”图 6-1 包 含 文件 类 型 、 存 放 位置 两 个 维 的 查询 接口 。 带 星 号 的 节点 表示 用 户 选中 的 查询 选项 ， 其 所 对 应 的 查询 意图 可 
翻译 为 如 下 查询 表达 式 : (“类 型 \ 图 片 \JPG” 或 “类 型 \ 图 片 \PSD”) 县 “目录 \D: \Picture” 。 

同样 ， 如 果 用 户 选择 的 是 “JPG” 和 “BMP” 两 个 节点 ， 则 表示 用 户 希 望 查询 “类 型 是 JPG 或 BMP” 的 文件 ， 如 果 用 户 选 中 
的 是 “类 型 \ 图 片 \JPG” 和 “最 近 访问 时 间 \ 最 近 一 周 ”， 则 表示 用 户 希 望 查询 “最 近 一 周 访问 过 的 JPG 文 件 ”。 

基于 这 种 导航 式 多 面 查询 接口 ， 用 户 可 以 利用 可 视 化 的 方式 输入 查询 条 件 。 基 于 上 述 查 询 逻 辑 和 用 户 在 查询 接口 上 选择 的 查 
询 条 件 ， 可 以 容易 地 生成 查询 逻辑 表达 式 。 然 后 ， 基 于 该 逻辑 表达 式 ， 在 数据 空间 中 查找 符合 条 件 的 文件 ， 生 成 查询 结果 。 


6.5 ”基于 任务 的 查询 方法 


6.5.1 ”任务 关系 的 识别 


由 于 每 个 基本 任务 的 内 容 都 包含 关键 字 信息 ， 因 此 可 以 基于 任务 关键 字 向 量 的 相似 度 ， 建 立 一 个 带 权 图 ， 或 基于 两 个 任务 所 
关联 的 文件 集合 的 交集 的 大 小 建立 带 权 图 ， 进 而 利用 现 有 的 聚 类 算法 进行 聚 类 ， 得 到 任务 之 间 的 包含 关系 。 由 于 目前 有 很 多 基于 
图 的 聚 类 方面 的 研究 工作 ， 如 K-means、 基 于 半径 方法 等 。 本 章 主 要 针对 任务 空间 模型 中 定义 的 另 两 种 任务 关联 ， 提 出 计算 任 
务 关联 度 的 方法 : 内 容 天 联 度 计算 方法 和 时 间 关 联 度 计 算 方 法 。 


1. 内 容 关 联 度 计算 方法 


在 个 人 数据 空间 模型 中 ， 任 务 内 容 被 表示 为 一 个 关键 词 向 量 ， 计 算 关 键 词 向 量 的 方法 有 很 多 ， 最 常用 的 是 TFMIDF 算 法 。 但 
是 传统 的 TF/IDF 算 法 需要 针对 每 个 文档 的 全 部 内 容 进行 计算 ,效率 很 低 。 实 际 上 ， 用 户 在 命名 文件 名 、 目 录 名 、 邮 件 主题 的 时 
候 往 往 会 使 用 一 些 与 任务 相关 的 词 。 基 于 此 观察 ， 本 书 提出 了 基于 关键 信息 的 词 频 统计 方法 ， 在 计算 表示 任务 内 容 的 关键 词 集合 
的 时 候 ， 只 是 基于 每 个 文档 的 文件 名 、 目 录 名 等 关键 信息 ， 而 并 非 基 于 全 文 ， 这 样 就 大 大 提高 了 计算 效率 。 

在 上 述 计 算 方 法 中 ， 将 每 一 个 任务 Ti 看 作 一 个 文档 di， 假 设 vi 表示 T 闫 联 的 文件 ，ti 素 示 每 个 文件 vi 的 关键 词 ， 这 样 Ti 的 关键 
词 集合 定义 为 ti1 UtizUti3U…Utin， 这 里 n 是 任务 Ti 所 包含 的 数据 项 的 数目 ，“U ”表示 是 一 个 多 重 集运 算 符 。 因 此 Ti 的 关键 词 


合 是 一 个 多 重 集 。 


给 定 两 个 任务 ， 基 于 其 天 键 词 集 合 ， 就 可 以 计算 两 个 任务 的 内 容 相似 度 。 本 节 采 用 Jaccard 相 似 度 计 算 两 个 任务 内 容 相似 
度 ， 如 公式 (6.1) : 


二 | TT; 。 SD token 站 FE 。 S token 
SEC Ty 大 a 
| I 和 S token U I 3 器 token | 





公式 中 Ti 和 Tj 表 示 两 个 给 定 的 任务 ，Tistoken 表 示 Ti 的 关键 词 集合 ，Tj.stoken 表 示 T 的 关键 词 集合 ，Sim (Ti, Tj) 表示 任务 
Ti 和 Tj 的 内 容 相关 度 。 


例 6.10 ”举例 说 明 内 容 关 联 度 计算 方法 。 


假设 T1 和 T2 为 两 个 给 定 的 任务 ，T1 相 关联 的 两 个 文件 为 F11 和 F12， 其 文件 名 和 目录 名 中 包含 的 关键 字 集 合 分 别 为 t11= 
{Dataspace, PIM, Proposal}#0t12={Pim，Dataspace，Submission}; T2 相 关联 的 两 个 文件 为 F21 和 F22， 其 文件 名 和 目录 名 
中 包含 的 关键 字 集 合 分 别 为 t11={Dataspace,PIM,， Indexl}f0t12={Dataspace，Submission}， 则 : 


Ti.token= {2 X DataSpace, 2XPIM, Proposal, Submission},; 
‘To.token= {2 X DataSpace, PIM, Index, Submission}; 


Ti.tokenfN'T,.token= {2 X DataSpace, PIM, Submission},; 





Ti.token UT,.token= {2 X DataSpace, 2XPIM, Proposal, Submission, Index},; 


其 中 2x Dataspace 表 示 多 重 集中 包含 两 个 关键 字 Dataspace。 基 于 以 上 公式 可 以 计算 出 Sim (T1，T2) =4/7=0.57， 即 任 
务 T1 和 T2 的 内 容 相似 度 为 0.57。 
2. 时 间 关 联 度 计 算 方 法 


如 何 计算 两 个 任务 之 间 的 时 间 关 联 度 也 是 一 个 关键 问题 。 本 节 介 绍 的 算法 基于 如 下 观点 : 如 果 两 个 任务 总 是 频繁 地 同时 被 执 
行 ， 则 认为 两 个 任务 具有 时 间 关 联 。 问 题 的 关键 是 如 何 定义 “同时 执行 ”。 为 了 摘 述 本 书 提 出 的 算法 ， 首 先 给 出 一 个 概念 一 一 
时 间 关 联 度 ， 表 示 为 TCD (Time Correlation Degree) ， 用 来 表示 两 个 任务 或 数据 项 被 同时 访问 的 概率 。 针 对 任务 和 数据 项 的 
不 同 ， 将 时 间 关 联 度 分 为 基于 任务 的 时 间 关 联 度 (tTCD) 和 基于 数据 项 的 时 间 关 联 度 (iTCD) 。 为 了 计算 时 间 关联 程度 ， 本 章 
定义 了 一 种 新 的 数据 关联 描述 方法 一 一 时 序 关 联 图 。 


定义 6.1 时序 关联 图 ”一 个 时 序 关联 图 (Sequential Adjacency Graph，SAG) 是 一 个 图 G (V,， FE) ， 其 中 V 是 顶点 集合 {vi;}， 


每 一 个 顶点 Vi 代表 一 个 数据 项 ; EE 是 边 集 {ei} ， 每 一 个 边 ei 表 示 两 个 数据 项 的 时 序 相 邻 关系 ， 边 的 权重 表示 关联 的 程度 。 
本 章 采 用 了 一 种 简单 有 效 的 方法 计算 时 序 关联 的 权重 : 在 时 序 访问 链表 中 两 个 数据 项 连续 出 现 的 次 数 。 
例 6.11 举例 说 明 时 序 关联 图 的 定义 。 


以 图 6-6 所 示 的 用 户 访问 序列 为 例 ， 每 个 节点 内 的 字母 表示 一 个 文件 。 


4) AE) CD)(ETCD(G) BJC > 


图 6-6 用户 访 问 序列 示例 














图 6-7 显 示 出 了 由 该 访问 序列 生成 的 时 序 关联 图 。 节 点 为 用 户 访问 过 的 文件 ;两 个 节点 之 间 的 边 表 示 两 个 文件 被 连续 访问 
过 ， 边 上 的 数值 表示 两 个 文件 被 连续 访问 的 次 数 。 





图 6-7 时序 关 联 图 示例 


根据 定义 ， 在 一 个 时 序 关联 图 G (V，E) 中 ， 节 点 表示 数据 项 ， 边 表示 两 个 数据 项 的 时 间 关 联 度 。 基 于 该 时 序 关 联 图 ， 可 以 
构造 出 一 个 基于 任务 的 时 序 关 联 图 Gt (Vt，Et) 。 其 中 节点 表示 任务 ， 边 表示 任务 之 间 的 时 间 关 系 ， 边 的 权重 表示 任务 的 时 间 
关联 度 tTCD。 本 节 提 出 了 如 下 方法 计算 tTCD: 给 定 两 个 任务 T1 和 T2， 可 以 从 时 序 关 联 图 G 中 导出 一 个 二 部 图 Gb， 其 是 时 序 关 联 
图 G 的 子 图 ， 并 且 只 包含 任务 T1 关 联 的 数据 项 集合 11 和 T2 关 联 的 数据 项 集合 12>， 以 及 两 个 顶点 分 别 属 于 11 和 12 的 边 集 。 基 于 公式 

(6.2) ， 可 以 计算 出 两 个 任务 之 间 的 时 间 关 联 度 。 其 中 mn 表示 二 部 图 Gb 的 边 数 。 
Wt 2 >， Ww;, v))) 六 

可 以 看 出 ， 两 个 任务 的 时 间 关 联 度 等 于 Gb 中 各 边 权 重 的 平均 值 。 图 6-8 显 示 了 一 个 计算 任务 相关 度 的 实例 。 图 6-8a 表 示 时 
序 关联 图 的 一 个 子 图 ， 其 只 包含 任务 T1 和 T2 的 相关 数据 项 ; 图 6-8b 是 由 图 6-8a 导 出 的 二 部 图 ， 其 中 只 保留 了 跨越 任务 T1 和 T2 的 
边 。 假 设 边 e12、e34、e52 的 权重 分 别 是 0.3、0.6 和 0.1， 则 Wt (T1，T2) = (0.3+0.6+0.1+1) /4=0.5。 可 以 看 出 这 里 有 一 种 
特别 的 情况 ， 数 据 项 16 同时 属于 任务 T1 和 T2， 在 这 种 情况 下 ， 则 认为 在 二 部 图 中 存在 一 条 边 e66， 其 权重 是 1。 基 于 这 种 方法 可 
以 计算 出 任意 两 个 任务 之 间 的 时 间 关 联 度 。 





图 6-8 ”计算 任务 时 间 相 关 度 示例 


6.5 ”基于 任务 的 查询 方法 


6.5.1 ”任务 关系 的 识别 


由 于 每 个 基本 任务 的 内 容 都 包含 关键 字 信息 ， 因 此 可 以 基于 任务 关键 字 向 量 的 相似 度 ， 建 立 一 个 带 权 图 ， 或 基于 两 个 任务 所 
关联 的 文件 集合 的 交集 的 大 小 建立 带 权 图 ， 进 而 利用 现 有 的 聚 类 算法 进行 聚 类 ， 得 到 任务 之 间 的 包含 关系 。 由 于 目前 有 很 多 基于 
图 的 聚 类 方面 的 研究 工作 ， 如 K-means、 基 于 半径 方法 等 。 本 章 主 要 针对 任务 空间 模型 中 定义 的 另 两 种 任务 关联 ， 提 出 计算 任 
务 关联 度 的 方法 : 内 容 天 联 度 计算 方法 和 时 间 关 联 度 计 算 方 法 。 


1. 内 容 关联 度 计算 方法 


在 个 人 数据 空间 模型 中 ， 任 务 内 容 被 表示 为 一 个 关键 词 向 量 ， 计 算 关 键 词 向 量 的 方法 有 很 多 ， 最 常用 的 是 TFMIDF 算 法 。 但 
是 传统 的 TF/IDF 算 法 需要 针对 每 个 文档 的 全 部 内 容 进行 计算 ， 效 率 很 你。 实际 上 ， 用 户 在 命名 文件 名 、 目 录 名 、 邮 件 主 题 的 时 
候 往往 会 使 用 一 些 与 任务 相关 的 词 。 基 于 此 观察 ， 本 书 提出 了 基于 关键 信息 的 词 频 统计 方法 ， 在 计算 表示 任务 内 容 的 关键 词 集合 
的 时 候 ， 只 是 基于 每 个 文档 的 文件 名 、 目 录 名 等 关键 信息 ， 而 并 非 基于 全 文 ， 这 样 就 大 大 提高 了 计算 效率 。 


在 上 述 计算 方法 中 ， 将 每 一 个 任务 Ti 看 作 一 个 文档 dji， 假设 vi 表示 Ti 关联 的 文件 ， tj 表示 每 个 文件 vi 的 关键 词 ， 这 样 Ti 的 关键 
词 集合 定义 为 ti UtizUti3U…Utin， 这 里 n 是 任务 Ti 所 包含 的 数据 项 的 数目 ，“U ”表示 是 一 个 多 重 集运 算 符 。 因 此 Ti 的 关键 词 
合 是 一 个 多 重 集 。 


给 定 两 个 任务 ， 基 于 其 天 键 词 集 合 ， 就 可 以 计算 两 个 任务 的 内 容 相似 度 。 本 节 采 用 Jaccard 相 似 度 计 算 两 个 任务 内 容 相似 
度 ， 如 公式 (6.1) : 


s S token 站 及 。 token | 


a Es (GB I 
Li S token U LS S token | 





go | 
SC rs Ty 


公式 中 T 和 Tj 表示 两 个 给 定 的 任务 ，Ti.Stoken 表 示 T 的 关键 词 集合 ，Tj.Stoken 表 示 T- 的 关键 词 集合 ，Sim (Ti，Tj) 表示 任务 


Ti 和 了 Tj 的 内 容 相关 度 。 
例 6.10 ”举例 说 明 内 容 关 联 度 计算 方法 。 


假设 T1 和 T2 为 两 个 给 定 的 任务 ，T1 相 关联 的 两 个 文件 为 F11 和 F12， 其 文件 名 和 目录 名 中 包含 的 关键 字 集 合 分 别 为 t11= 
{Dataspace, PIM, Proposal}f0t12={Pim，Dataspace，Submission}; T2 相 关联 的 两 个 文件 为 F21 和 F22， 其 文件 名 和 目录 名 


中 包含 的 关键 字 集合 分 别 为 t11={Dataspace，PIM ，lndexlj 和 t12={Dataspace，Submission}， 则 : 
TI1.token={2XDataSpace，2XPIM，Proposal，Submission } ; 
TI?.token={2XDataSpace，PIM，Index，Submission } ; 


TI.token 门 工 .token={2XDataSpace，PIM，Submission } ; 





Ti.token UT,.token= {2 X DataSpace, 2XPIM, Proposal, Submission, Index},; 


其 中 2x Dataspace 表 示 多 重 集中 包含 两 个 关键 字 Dataspace。 基 于 以 上 公式 可 以 计算 出 Sim (T1，T2) =4/7=0.57， 即 任 
务 T1 和 T2 的 内 容 相似 度 为 0.57。 


2. 时 间 关 联 度 计算 方法 


如 何 计算 两 个 任务 之 间 的 时 间 关 联 度 也 是 一 个 关键 问题 。 本 节 介 绍 的 算法 基于 如 下 观点 : 如 果 两 个 任务 总 是 频繁 地 同时 被 执 
行 ， 则 认为 两 个 任务 具有 时 间 关 联 。 问 题 的 关键 是 如 何 定义 “同时 执行 ”。 为 了 摘 述 本 书 提 出 的 算法 ， 首 先 给 出 一 个 概念 一 一 
时 间 关 联 度 ， 表 示 为 TCD (Time Correlation Degree) ， 用 来 表示 两 个 任务 或 数据 项 被 同时 访问 的 概率 。 针 对 任务 和 数据 项 的 
不 同 ， 将 时 间 关 联 度 分 为 基于 任务 的 时 间 关 联 度 (tTCD) 和 基于 数据 项 的 时 间 关 联 度 (iTCD) 。 为 了 计算 时 间 关 联 程度 ， 本 章 
定义 了 一 种 新 的 数据 关联 描述 方法 一 一 时 序 关联 图 。 





定义 6.1 时序 关联 图 ”一 个 时 序 关联 图 (Sequential Adjacency Graph，SAG) 是 一 个 图 G (V,， EE) ， 其 中 V 是 顶点 集合 {vi;}， 


每 一 个 顶点 vi 代表 一 个 数据 项 ; E 是 边 集 {ei} ， 每 一 个 边 ei 表 示 两 个 数据 项 的 时 序 相 邻 关系 ， 边 的 权重 表示 关联 的 程度 。 
本 章 采 用 了 一 种 简单 有 效 的 方法 计算 时 序 关联 的 权重 : 在 时 序 访问 链表 中 两 个 数据 项 连续 出 现 的 次 数 。 
例 6.11 举例 说 明 时 序 关联 图 的 定义 。 


以 图 6-6 所 示 的 用 户 访问 序列 为 例 ， 每 个 节点 内 的 字母 表示 一 个 文件 。 


(EAB) AMAL AD AD} -AL AB) A AD -ASAE) AE) > 


图 6-6 用户 访 问 序列 示例 














图 6-7 显 示 出 了 由 该 访问 序列 生成 的 时 序 关联 图 。 节 点 为 用 户 访问 过 的 文件 ;两 个 节点 之 间 的 边 表示 两 个 文件 被 连续 访问 
过 ， 边 上 的 数值 表示 两 个 文件 被 连续 访问 的 次 数 。 





图 6-7 时序 关 联 图 示例 


根据 定义 ， 在 一 个 时 序 关联 图 G (V，E) 中 ， 节 点 表示 数据 项 ， 边 表示 两 个 数据 项 的 时 间 关 联 度 。 基 于 该 时 序 关 联 图 ， 可 以 
构造 出 一 个 基于 任务 的 时 序 关 联 图 Gt (Vt，Et) 。 其 中 节点 表示 任务 ， 边 表示 任务 之 间 的 时 间 关 系 ， 边 的 权重 表示 任务 的 时 间 
关联 度 tTCD。 本 节 提 出 了 如 下 方法 计算 tTCD: 给 定 两 个 任务 T1 和 T2， 可 以 从 时 序 关 联 图 G 中 导出 一 个 二 部 图 Gb， 其 是 时 序 关 联 
图 G 的 子 图 ， 并 且 只 包含 任务 T1 关 联 的 数据 项 集合 11 和 T2 关 联 的 数据 项 集合 12>， 以 及 两 个 顶点 分 别 属 于 11 和 12 的 边 集 。 基 于 公式 

(6.2) ， 可 以 计算 出 两 个 任务 之 间 的 时 间 关 联 度 。 其 中 mn 表示 二 部 图 Gb 的 边 数 。 
Wt 2 >， Ww;, v))) 六 

可 以 看 出 ， 两 个 任务 的 时 间 关 联 度 等 于 Gb 中 各 边 权 重 的 平均 值 。 图 6-8 显 示 了 一 个 计算 任务 相关 度 的 实例 。 图 6-8a 表 示 时 
序 关联 图 的 一 个 子 图 ， 其 只 包含 任务 T1 和 T2 的 相关 数据 项 ; 图 6-8b 是 由 图 6-8a 导 出 的 二 部 图 ， 其 中 只 保留 了 跨越 任务 T1 和 T2 的 
边 。 假 设 边 e12、e34、e52 的 权重 分 别 是 0.3、0.6 和 0.1， 则 Wt (T1，T2) = (0.3+0.6+0.1+1) /4=0.5。 可 以 看 出 这 里 有 一 种 
特别 的 情况 ， 数 据 项 16 同时 属于 任务 T1 和 T2， 在 这 种 情况 下 ， 则 认为 在 二 部 图 中 存在 一 条 边 e66， 其 权重 是 1。 基 于 这 种 方法 可 
以 计算 出 任意 两 个 任务 之 间 的 时 间 关 联 度 。 





图 6-8 ”计算 任务 时 间 相 关 度 示例 


6.5.2 ， 碍 询 处 理 


在 第 2 章 介绍 了 任务 空间 模型 [1]， 任 务 空间 逻辑 上 是 一 个 图 ， 节 点 是 任务 ， 边 是 任务 之 间 的 关系 。 本 节 主要 考虑 两 种 任务 关 
系 : 基于 时 间 的 关系 Rt 和 基于 内 容 的 关系 Rc， 第 2 章 介 绍 了 这 两 种 天 系 的 识别 方法 。 本 节 讨 论 如 何 基 于 任务 以 及 这 两 种 关系 进行 
查询 。 用 户 输入 的 语法 格式 如 下 : 


Task\ [Keyword List] ~ [Time Interval] 

该 查询 接口 具有 如 下 特点 : 

1) 简单 且 易 于 掌握 ， 输 入 的 时 间 可 以 是 一 个 时 间 点 ， 也 可 以 是 一 个 时 间 段 。 

2) 符合 人 们 的 记忆 特征 。 研 究 表明 ， 用 户 往往 能 够 记 住 与 任务 相关 的 一 些 词 或 相关 的 时 间 。 


3) 灵活 。 如 果 用 户 没有 输入 时 间 信 息 和 关键 字 信息 ， 则 意味 着 浏览 所 有 任务 ， 通 过 计算 每 个 任务 与 用 户 输入 信息 的 相关 
性 ， 可 以 将 任务 进行 排序 。 表 6-3 显 示 了 一 些 任务 查询 实例 。 


表 6-3 ” 几 个 任务 的 查询 实例 





查询 实例 查询 含义 





查找 与 关键 字 XML 和 project 有 关 , 且 在 
2009 年 1 月 处 理 的 任务 


Ql1:Task\LXML ,projectj\L2009-01 














Q2:Task\[ I\[2009] 查询 2009 年 执行 的 所 有 任务 
Q3 .Task\PIM 查询 与 PIM 有 关 的 所 有 任务 
Q4:Task\[ I\[ ] 浏览 所 有 任务 信息 


任务 查询 主要 包括 两 部 分 ， 一 是 解析 查询 表达 式 ， 二 是 生成 查询 结果 。 假 设 Gt (T，E) 是 一 个 任务 空间 ， 用 户 输 入 的 关键 
字 信 息 为 Q.keyword， 查 询 时 间 信 息 为 Q.Time， 查 询 表达 式 解析 如 下 : 


1) If Q.time is not null, Rt={Ti | Ti.TLNQ.time#null} 

2) If Q.keywords is not null, Rc={Ti | Ti.TCNQ.keywordsz#null} 

3) If Q.keywords is null and Q.time is null, R=Gt.T 

4) If Q.keywords is not null and Q.time is not null, R=RtURc 

可 以 看 出 该 解析 算法 具有 如 下 特点 : 

1) 采用 了 一 种 贪 林 算法。 其 采用 基于 关键 字 生 成 的 结果 集 和 基于 时 间 的 结果 集 的 并 集 作 为 最 终结 果 。 
2) 用 户 可 以 进行 空 输入 查询 ， 其 含义 为 : 浏览 所 有 任务 。 


当 用 户 不 能 记 住 准确 的 关键 字 信 息 或 时 间 信 息 的 时 候 ， 上 述 方法 往往 不 再 奏效 。 为 了 使 该 方法 具有 更 好 的 实用 性 ， 对 上 述 方 
法 进行 了 扩展 ， 以 便 使 用 户 可 以 基于 任务 之 间 的 关联 关系 查询 数据 文件 。 

以 基于 关键 字 查 询 为 例 ， 假 设 基 于 用 户 输入 的 关键 字 生 成 的 查询 结果 为 Rc。 以 Re 中 的 任务 作为 入 口 ， 可 以 根据 基于 内 容 的 
任务 关联 图 查询 与 Re 中 的 任务 相关 的 任务 。 方 法 如 下 : 首先 利用 以 下 公式 基于 Re 中 的 任务 生成 一 个 任务 向 量 ， 该 向 量 维 数 等 于 
总 的 任务 数 ， 每 维 的 数值 对 应 一 个 任务 ， 如 果 对 应 的 任务 包含 在 Rc 中 ， 则 相应 维度 的 数值 为 1， 否 则 为 0。 

1 
Va(z)» ( | 
10 者 T,¢ Re 

假设 G- (V，Ec) 是 一 个 通过 任务 空间 G 导 出 的 图 ，V 是 所 有 任务 的 集合 ，Ec 是 表示 内 容 关 联 的 边 组 成 的 集合 ，MCc 是 
Gc(V，Ec) 对 应 的 关联 和 矩阵。 基于 V。、Mc 和 公式 Vi=VsxMtc (t 素 示 指数 ) ， 可 以 得 到 一 个 向 量 Vr， 其 值 在 0 到 1 之 间 。 这 样 
就 可 以 得 到 查询 结果 Re， 这 里 Re ={Ti | Vr (i) 0}， 即 查询 结果 包含 向 量 V/ 中 所 有 非 0 元 素 对 应 的 任务 。 


这 里 Mc 的 指数 t 的 确定 是 一 个 需要 考虑 的 问题 ，t 越 大 ， 结 果 集 中 包含 的 任务 就 会 越 多 ， 同 时 计算 性 能 就 会 降低 ;反之 结果 
集中 包含 的 任务 就 会 越 少 ， 计 算 性 能 会 提高 。 因 此 t 值 的 确定 需要 用 户 在 性 能 和 用 户 期 望 的 查询 结果 之 间 做 一 个 折 中 。 例 如 ， 如 
果 用 户 希 望 显示 Top (K) 的 任务 ， 则 计算 将 在 结果 集中 的 任务 数量 超过 K 或 矩阵 相 乘 次 数 (计算 时 间 ) 大 于 一 个 给 定 的 羡 值 K 的 
时 候 自 动 停止 。 

相同 的 方法 可 以 用 于 基于 任务 时 间 关 联 的 查询 ， 得 到 基于 时 间 关 联 的 任务 集合 Rt。 从 而 通过 合并 得 到 最 终 的 查询 结果 
R'=Rt U Re U Rn， 其 中 Rn 表示 通过 输入 条 件 直接 计算 得 到 的 任务 集合 。 


在 任务 空间 中 ， 任 务 的 数量 往往 并 不 大 ， 可 以 将 任务 关联 矩阵 存放 在 内 存 中 进行 计算 ， 这 样 性 能 就 会 有 一 个 较 大 的 提高 。 矩 
阵 相 乘 次 数 t 即 可 以 由 用 户 设 定 ， 也 可 以 通过 基于 用 户 反 馈 信 息 利 用 自 适 应 的 方法 进行 调整 。 


[1] Y Li, X Zhao, Yingyuan Xiao, Xiaoye Wang.Seatching Desktop Files Based on Access Logs [C] .18th Intetnational Conference on 
Database Systems for Advanced Applications (DASFAA 2013) . 


6.5.3 ”排序 方法 


传统 的 显示 查询 结果 的 方法 是 通过 一 个 排序 列表 的 方式 ， 当 查询 结果 较 少 的 时 候 这 种 方式 是 比较 有 效 的 。 但 是 ， 在 实际 的 情 
况 下 ， 基 于 任务 的 查询 结果 中 包含 多 个 任务 ， 每 个 任务 关联 多 个 文件 ， 传 统 的 排序 表 的 方式 用 户 浏览 查找 都 很 不 方便 。 本 章 介绍 
一 种 二 维 的 查询 结果 排序 方式 Top (k，t) 。 其 意味 着 查询 结果 首先 显示 与 用 户 输入 最 相关 的 k 个 任务 ， 然 后 显示 与 每 个 任务 最 
相关 的 t 个 相关 的 数据 对 象 。 


例 6.12 图 6-9 显 示 了 一 个 查询 结果 为 Top (10，5) 的 示例 。 


Task10 





图 6-9 Top (10，5) 排序 示例 针对 任务 排序 ， 有 两 种 基本 方法 : 
1) 基于 时 间 相 关 度 排序 (TR) 。 
2) 基于 内 容 相关 度 排序 (CR) 。 


以 基于 时 间 相 关 度 为 例 ， 根 据 上 一 节 所 述 ， 通 过 公式 Vi;=Vsx Mc 可 以 计算 出 结果 向 量 V,， 该 向 量 每 个 元 素 是 一 个 0 到 1 之 间 
的 数值 ， 且 每 个 元 素 映射 到 一 个 任务 ， 基 于 该 向 量 就 可 以 得 到 基于 时 间 相 关 度 的 任务 排序 。 因 此 可 以 非常 快速 地 计算 出 top-k 的 
任务 列表 。 此 时 k 作 为 排序 算法 中 的 一 个 重要 的 因子 ， 每 次 执行 矩阵 相 乘 Vr=Vsx Mtc 之 后 ， 向 量 Vr 中 的 非 零 元 素 个 数 将 会 被 计 
算 一 次 ， 如 果 非 零 元 素数 量 大 于 或 等 于 k， 则 算法 终止 。 


与 任务 排序 类 似 ， 任 务 中 数据 项 的 排序 也 分 为 两 类 : 


1) 基于 时 间 排 序 (Time-based ltem Ranking，TIR) 。 
2) 基于 内 容 排序 (Content-based ltem Ranking，CIR) 。 


在 个 人 计算 机 中 ， 最 后 访问 时 间 是 数据 空间 中 每 个 数据 对 象 的 一 个 基本 属性 ， 简 单 起 见 ， 基 于 时 间 排 序 可 以 按照 最 近 访 问 时 
间 。 对 于 基于 内 容 排序 ， 可 以 通过 计算 表示 任务 的 关键 字 集合 与 表示 数据 对 象 内 容 的 关键 字 集 合 的 相似 度 进 行 计算 ， 常 用 的 方法 
有 Jaccard 相 似 性 计算 方法 。 


由 于 top-k 是 用 户 习 惯 的 一 种 常用 的 查询 结果 展示 方式 ， 本 节 介绍 两 种 将 top (k，t) 形式 的 查询 结果 转化 为 top-k 形 式 查询 
结果 的 方法 。 图 6-10 显 示 了 将 查询 结果 由 Top (k，t) 形式 转化 为 Top 〔k) 形式 方法 的 示例 。 图 6-10a 显 示 的 方法 偏重 于 数据 对 
象 的 优先 级 ， 称 之 为 IPA (ltem Priority Algorithm) 算法 ;图 6-10b 显 示 的 方法 偏重 于 任务 的 优先 级 ， 称 之 为 任务 优先 算法 

(Task Priority Algorithm, TPA) 。 
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图 6-10 ”将 TIop (k，ft) 查询 结果 转化 为 Top (k) 形式 方法 示例 


基于 任务 的 查询 策略 可 以 为 用 户 提供 以 下 查询 服务 (12: 


1) 基于 任务 浏览 与 之 相关 的 数据 信息 。 这 种 方法 对 于 数据 量 比较 大 、 每 天 需要 处 理 很 多 任务 的 用 户 非常 有 用 ， 会 提高 数据 
访问 效率 。 

2) 基于 任务 关联 查找 数据 信息 。 可 以 将 任务 之 间 的 关联 关系 作为 一 种 线索 帮助 人 们 查询 相关 的 文档 , 
[1] Y Li, X Zhang, X Meng.Exploring Desktop Resources Based on User Activity Analysis LC] .In the proceedings of the 33rd Annual 
ACM SIGIR Conference (ACM SIGIR 2010) , 2010. 


[2] Y Li, D Elsweiler, X Meng.Towatds Task-Organised Desktop Collections LC] .In Proceedings of the ACM SIGIR Workshop on 


Desktop Seatch，2010: 21-24. 


6.6 小 结 


本 章 首 先 针对 数据 空间 查询 中 用 户 输入 的 不 确定 性 问题 ， 讨 论 了 基于 同义词 的 查询 策略 。 针 对 多 属性 组 合 查 询问 题 ， 讨 论 了 
数据 空间 的 分 类 结构 、 查 询 接口 。 进 一 步 对 基于 任务 的 数据 空间 查询 方法 进行 了 分 析 ， 包 括 查 询 接口 、 查 询 处 理 和 结果 排序 方 


法 。 数 据 空间 查询 问题 目前 仍 未 完全 解决 ， 查 询 场景 的 多 样 性 使 得 必须 针对 不 同 场景 对 查询 策略 深入 研究 和 探讨 。 
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第 / 草 ”个 人 数据 空间 系统 


7.1 引言 


进行 个 人 数据 管理 技术 研究 的 目的 是 设计 具有 实际 应 用 价值 的 个 人 数据 空间 管理 系统 。 目 前 个 人 数据 空间 相关 技术 仍 处 于 研 
究 阶段 ， 一 些 问题 尚未 完全 解决 。 一 些 学 者 基于 本 人 或 其 团队 的 研究 成 果 ， 研 发 了 各 种 个 人 数据 空间 管理 原型 系统 ， 如 
iMemex[1、Semex 上 四、HaystackB]、MyLifeBits 册 等 。 本 书 作 者 及 其 研究 团队 基于 多 年 的 研究 成 果 ， 开 发 了 个 人 数据 空间 管 
理 原 型 系统 OrientSpaceP]。 本 章 首 先 对 个 人 数据 空间 系统 进行 概述 ， 然 后 从 系统 实现 的 角度 ， 对 个 人 数据 空间 的 构建 、 演 化 、 
存储 、 索 引 技 术 进行 讨论 ， 最 后 对 个 人 数据 空间 原型 系统 OrientSpace 进 行 较为 详细 的 介绍 。 


[1] L Blunschi，J-P Ditttich，O R Girard, S K Karakashian, M A Salles.A Dataspace Odyssey: The IMeMex Personal Dataspace 
Management System [C] .In Proceedings of the 3td Conference on Innovative Data Systems Research (CIDR) , 2007: 114-119. 

[2] X Dong, A Halevy, J Madhavan.Reference Reconciliation in Complex Information Spaces LC] .In Proceedings of the 25th International 
Conference.on Management of Data (SIGMOD) .ACM, 2005: 85-96. 

B] DR Karger, K Bakshi, D Huynh, D Quan, V Sinha.Haystack: A Customizable Genetal-pufpose Information Management Tool for 
End Users of Semistructured Data [C] .Proc.of the 2nd Cont.on Innovative Data Systems Research (CIDR) , Asilomar, 2005: 13-26. 
[4] J] Gemmell, G Bell, R Lueder, S M Drucker, C Wong.MyLifeBits: Fulfilling the Memex Vision [J| .ACM Multimedia, 2002: 235- 
238. 

[5] Y Li, X Zhang, X Meng.Exploring Desktop Resources Based on User Activity Analysis [C] .In Proceedings of the 33rd Annual ACM 


SIGIR Conference (SIGIR) , 2010. 


第 7 章 ” 个 人 数据 空间 系统 


7.1 引言 


进行 个 人 数据 管理 技术 研究 的 目的 是 设计 具有 实际 应 用 价值 的 个 人 数据 空间 管理 系统 。 目 前 个 人 数据 空间 相关 技术 仍 处 于 研 
究 阶段 ， 一 些 问题 尚未 完全 解决 。 一 些 学 者 基于 本 人 或 其 团队 的 研究 成 果 ， 研 发 了 各 种 个 人 数据 空间 管理 原型 系统 ， 如 
iMemex[1、Semex 上 四、HaystackB]、MyLifeBits 册 等 。 本 书 作 者 及 其 研究 团队 基于 多 年 的 研究 成 果 ， 开 发 了 个 人 数据 空间 管 
理 原 型 系统 OrientSpaceP]。 本 章 首 先 对 个 人 数据 空间 系统 进行 概述 ， 然 后 从 系统 实现 的 角度 ， 对 个 人 数据 空间 的 构建 、 演 化 、 
存储 、 索 引 技 术 进行 讨论 ， 最 后 对 个 人 数据 空间 原型 系统 OrientSpace 进 行 较为 详细 的 介绍 。 


[1] L Blunschi，J-P Dittttich，O R Girard, S K Karakashian, M A Salles.A Dataspace Odyssey: The IMeMex Personal Dataspace 
Management System [C] .In Proceedings of the 3td Conference on Innovative Data Systems Research (CIDR) , 2007: 114-119. 

[2] X Dong, A Halevy, J Madhavan.Reference Reconciliation in Complex Information Spaces LC] .In Proceedings of the 25th International 
Conference.on Management of Data (SIGMOD) .ACM, 2005: 85-96. 

B] DR Karger, K Bakshi, D Huynh, D Quan, V Sinha.Haystack: A Customizable Genetal-pufpose Information Management Tool for 
End Users of Semistructured Data [C] .Proc.of the 2nd Cont.on Innovative Data Systems Research (CIDR) , Asilomar, 2005: 13-26. 
[4] J] Gemmell, G Bell, R Lueder, S M Drucker, C Wong.MyLifeBits: Fulfilling the Memex Vision [J| .ACM Multimedia, 2002: 235- 
238. 

[5] Y Li, X Zhang, X Meng.Exploring Desktop Resources Based on User Activity Analysis [C] .In Proceedings of the 33rd Annual ACM 


SIGIR Conference (SIGIR) , 2010. 


7.2 ”系统 概述 


目前 人 们 进行 个 人 数据 管理 ， 主 要 是 通过 文件 系统 和 桌面 搜索 引擎 。 国 外 有 针对 个 人 数据 空间 管理 的 系统 ， 典 型 的 有 
iMemex[1、Ssemex[ej 等 ， 表 7-1 将 OrientSpace 与 文件 系统 、 桌 面 搜索 引擎 、iMemex 在 功能 方面 进行 了 比较 。 


表 7-1 个 人 数据 空间 系统 的 比较 























文件 系统 桌面 搜索 引擎 iMemex OrientSpace 
自动 集成 理 否 否 是 
语义 集成 低 低 上 局 
多 数据 源 ny 是 是 是 
任务 空间 模型 从 个 个 是 
核心 数据 空间 浏览 从 全 个 是 
基于 关系 的 查询 否 否 是 是 
关键 字 搜 索 是 是 是 是 
查询 性 能 低 局 局 
维持 成 本 低 高 中 











可 以 看 出 ， 与 文件 系统 相 比 ，OrientSpaceD] 可 以 提高 个 人 数据 管理 效率 ， 使 人 们 在 查找 数据 方面 更 加 便捷 。 概 括 起 
来 ，OrientSpace 系 统 具 有 以 下 特色 功能 。 


1) 灵活 的 数据 模式 。Orientspace 人 允许 用 户 灵活 自由 地 创建 和 修改 数据 模式 。 用 户 可 以 在 使 用 过 程 中 不 断 修改 模式 ， 使 其 
与 现实 世界 中 的 数据 不 断 接 近 ， 充 分 体现 了 数据 空间 “ 先 有 数据 ， 后 有 模式 ”的 特点 ， 而 且 也 适用 于 个 人 数据 空间 中 数据 源 非 结 
构 化 或 半 结 构 化 、 数 据 量 大 的 特点 。 


2) 支持 复杂 多 样 的 数据 关联 。 其 他 个 人 数据 管理 工具 支持 数据 间 的 关联 信息 ， 但 是 它们 多 是 通过 分 析 一 些 简单 的 结构 信息 
来 得 到 关联 信息 ， 如 文件 存放 的 目录 结构 等 。 在 OrientSpace 中 ， 支 持 更 多 的 关联 信息 ， 包 括 基于 任务 的 关联 、 数 据 对 象 与 用 户 
之 间 的 天 联 等 ， 从 而 可 以 支持 更 加 多 样 的 数据 操作 ， 为 用 户 提供 更 多 的 数据 服务 。 


3) 支持 基于 用 户 行为 的 数据 空间 演化 。 动 态 演化 是 数据 空间 系统 的 重要 特性 之 一 。OrientSpace 系 统 采用 一 种 基于 用 户 行 
为 分 析 的 方法 在 个 人 数据 空间 的 资源 之 间 建 立 天 联 信息 ， 并 借助 用 户 反馈 对 天 联 信息 进行 不 断 更 新 和 筛选 ， 以 此 推动 系统 不 断 演 
化 。 该 方法 充分 考虑 了 用 户 的 个 性 化 信息 ， 使 得 系统 不 断 向 着 “更 好 地 服务 用 户 ” 的 方向 发 展 。 


4) 提供 自动 建立 数据 空间 的 功能 。 用 户 安装 完成 以 后 ， 该 系统 会 自动 搜索 计算 机 中 用 户 访问 过 的 数据 文件 ， 可 以 建立 初始 
数据 空间 。 之 后 ， 系 统 会 持续 监控 用 户 的 操作 ， 基 于 用 户 操作 不 断 更 新 数据 空间 ， 自 动 更 新 用 户 任务 。 


5) 支持 基于 任务 的 数据 操作 。OrientSpace 系 统 提供 了 基于 任务 浏览 个 人 数据 文件 的 功能 ， 用 户 可 以 很 方便 地 浏览 任务 和 
每 个 任务 所 关联 的 文件 。 


此 外 还 有 其 他 一 些 个 人 数据 空间 管理 系统 ， 如 Haystack 内 、MyLifeBitsb] 等 。MyLifeBits 侧 重 于 对 文本 和 多 媒体 数据 的 集成 
与 管理 ; Haystack 侧 重 于 通过 分 析 用 户 个 性 化 信息 对 个 人 数据 进行 标注 。 群 组 数据 空间 和 企业 数据 空间 的 相关 工作 较 少 ， 还 没 
有 看 到 相关 的 原型 系统 。 
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7.3 ”实现 技术 


7.3.1 ”数据 存储 


图 7-1 显 示 了 数据 空间 的 存储 结构 。 可 以 看 出 ,数据 空间 中 的 各 种 数据 分 布 存储 在 不 同 的 设备 或 系统 中 ， 主 要 包括 两 类 : 
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图 7-1 数据 空间 存储 结构 


1 元 数据 


元 数据 是 指数 据 的 描述 信息 ， 如 数据 项 名 称 、 数 据 项 的 基本 属性 、 数 据 项 之 间 的 关联 关系 等 。 元 数据 信息 集中 存放 在 特定 区 
域 ， 以 全 局 视图 的 形式 存在 ， 用 户 通 过 该 数据 视图 对 数据 内 容 进 行 操作 。 用 户 提交 查询 后 ， 查 询 处 理 引擎 通过 全 局 视图 找到 要 查 
找 的 对 象 及 其 物理 位 置 ， 然 后 将 数据 取出 返回 。 


2. 内 容 数 据 


内 容 数据 是 指数 据 对 象 的 具体 内 容 ， 一 般 和 存储 在 其 原始 的 数据 源 中 ， 或 由 主体 指定 存放 在 特定 的 位 置 。 例 如 ， 个 人 通讯 录 中 
每 个 人 的 各 种 信息 就 是 内 容 数 据 ; 个 人 书写 的 各 种 文档 也 是 内 容 数据 。 


例 7.1 对 于 用 户 书写 的 一 个 文档 D: \ Dataspace \ Personal taskspace.doc， 其 元 数据 信息 包括 文件 名 、 文 件 路 径 、 文 
件 长 度 、 文 件 关键 字 等 ， 这 些 信息 会 存放 在 数据 空间 的 特定 区 域 中 。 文 档 的 内 容 数据 指 的 是 文档 所 对 应 的 文件 ， 其 仍然 存放 在 文 
件 夹 D: \ Dataspace 中 。 


为 了 提高 数据 操作 的 效率 ， 元 数据 信息 的 存放 应 当 考 虑 以 下 问题 : 


1) 访问 的 快捷 。 应 存放 在 读 取 效 率 高 的 地 方 ， 如 用 户 访问 最 容易 的 个 人 计算 机 上 ， 也 可 以 在 不 同位 置 存放 多 个 副本 ， 以 提 
高 数据 操作 的 效率 ， 但 多 版 本 数据 的 一 致 性 保证 会 带 来 一 些 额 外 的 开销 。 


2) 更 新 效率 高 。 在 前 面 章节 提 到 ， 数 据 空 间 的 更 新 是 一 种 “从 模式 到 数据 ”的 方式 ， 而 且 主 体 的 数据 服务 需求 呈现 出 多 样 
化 、 动 态 变动 的 特点 。 主 体 的 数据 操作 往往 带 来 元 数据 的 更 新 。 


如 同 第 2 章 所 述 ， 基 于 三 元 组 的 存储 是 数据 空间 较 合适 的 选择 ， 如 RDF 等 。 如 果 需 要 记录 数据 的 时 间 属 性 ， 就 可 以 采用 第 2 
章 介绍 的 基于 四 元 组 的 数据 模型 。 


7.3 ”实现 技术 


7.3.1 数据 存储 


图 7-1 显 示 了 数据 空间 的 存储 结构 。 可 以 看 出 ,数据 空间 中 的 各 种 数据 分 布 存储 在 不 同 的 设备 或 系统 中 ， 主 要 包括 两 类 : 
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图 7-1 ”数据 空间 存储 结构 


1. 元 数据 


元 数据 是 指数 据 的 描述 信息 ， 如 数据 项 名 称 、 数 据 项 的 基本 属性 、 数 据 项 之 间 的 关联 关系 等 。 元 数据 信息 集中 存放 在 特定 区 
域 ， 以 全 局 视图 的 形式 存在 ， 用 户 通 过 该 数据 视图 对 数据 内 容 进行 操作 。 用 户 提 交 查 询 后， 查询 处 理 引 擎 通过 全 局 视图 找到 要 查 


找 的 对 象 及 其 物理 位 置 ， 然 后 将 数据 取出 返回 。 
2. 内 容 数 据 


内 容 数 据 是 指数 据 对 象 的 具体 内 容 ， 一 般 存 储 在 其 原始 的 数据 源 中 ， 或 由 主体 指定 存放 在 特定 的 位 置 。 例 如 ， 个 人 通讯 录 中 
每 个 人 的 各 种 信息 就 是 内 容 数 据 ; 个 人 书写 的 各 种 文档 也 是 内 容 数 据 。 


例 7.1 ”对 于 用 户 书 写 的 一 个 文档 D: \ Dataspace \ Personal taskspace.doc， 其 元 数据 信息 包括 文件 和 名、 文件 路 径 、 文 
件 长 度 、 文 件 关 键 字 等 ， 这 些 信息 会 存放 在 数据 空间 的 特定 区 域 中 。 文 档 的 内 容 数 据 指 的 是 文档 所 对 应 的 文件 ， 其 仍然 存放 在 文 
件 夹 D: \ Dataspace 中 。 


为 了 提高 数据 操作 的 效率 ， 元 数据 信息 的 存放 应 当 考 虑 以 下 问题 : 


1) 访问 的 快捷 。 应 存放 在 读 取 效 率 高 的 地 方 ， 如 用 户 访问 最 容易 的 个 人 计算 机 上 ， 也 可 以 在 不 同位 置 存放 多 个 副本 ， 以 提 
高 数据 操作 的 效率 ， 但 多 版 本 数据 的 一 致 性 保证 会 带 来 一 些 额 外 的 开销 。 


2) 更 新 效率 高 。 在 前 面 章节 提 到 ， 数 据 空间 的 更 新 是 一 种 “从 模式 到 数据 ”的 方式 ， 而 且 主 体 的 数据 服务 需求 呈现 出 多 样 
化 、 动 态 变动 的 特点 。 主 体 的 数据 操作 往往 带 来 元 数据 的 更 新 。 


如 同 第 2 章 所 述 ， 基 于 三 元 组 的 存储 是 数据 空间 较 合适 的 选择 ， 如 RDF 等 。 如 果 需 要 记录 数据 的 时 间 属 性 ， 就 可 以 采用 第 2 
章 介绍 的 基于 四 元 组 的 数据 模型 。 


7.3.2 ”索引 策略 


Xin Dong 提 出 了 将 关键 字 索 引 和 结构 化 索引 技术 结合 起 来 的 方法 [1]。 在 第 5 章 中 ， 也 介绍 了 一 种 灵活 的 索引 方法 。 数 据 源 的 
分 布 性 使 索引 的 建立 与 更 新 依赖 更 多 的 因素 ， 如 网 络 性 能 、 数 据 源 自身 的 存储 与 索引 策略 等 。 在 OrientSpace 系 统 中 ， 开 发 者 借 


1. 多 级 索引 


在 数据 空间 中 ， 主 体 对 于 数据 项 的 访问 是 不 均衡 的 。 观 察 发现 ， 人 们 对 数据 的 访问 存在 “二 八 现象 ”， 即 在 一 段 时 间 内 ， 人 
们 需要 访问 的 数据 对 象 往往 只 涉及 数据 空间 总 体 的 很 小 一 部 分 。 基 于 以 上 观察 ， 在 原型 系统 中 采用 了 多 级 索引 结构 。 建 立 了 两 级 
索引 结构 : 第 一 级 针对 核心 数据 空间 的 索引 ; 第 二 级 为 整个 桌面 数据 空间 的 索引 。 如 图 7-2 所 示 。 
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图 7-2 ”数据 空间 多 级 索引 示意 图 


基于 这 种 多 级 索引 结构 ， 当 用 户 进 行 查询 的 时 候 ， 将 首先 基于 核心 数据 空间 索引 进行 查询 ， 只 有 当 无 法 找到 用 户 所 需要 的 
查询 结果 的 时 候 ， 系 统 才 会 搜索 整个 数据 空间 。 


2. 选 择 性 索引 


OrientSpace 系 统 采用 了 选择 性 索引 技术 。 即 在 对 文本 内 容 进行 索引 时 ， 没 有 采用 传统 的 全 文 索引 的 方式 ， 而 是 选择 基于 文 
档 中 的 关键 信息 进行 索引 ， 如 文件 名 中 的 信息 、 在 文档 中 频繁 出 现 的 词 等 。 


采取 这 种 方式 基于 以 下 原因 : 


.全文 索引 占用 空间 过 大 。 其 结果 一 方面 造成 空间 的 浪费 ; 另 一 方面 建立 和 维护 索引 的 时 间 开 销 会 很 大 ， 从 而 降低 系统 性 


EGG 
口 


" 数据 空间 中 的 查询 往往 是 “再 访问 ”。 用 户 大 多 数 情况 下 知道 自己 要 找 的 资源 是 什么 ， 未 知 的 常常 只 是 这 些 资源 的 存放 位 


因此 ， 用 户 用 来 查询 的 关键 字 一 般 来 说 是 数据 空间 资源 中 比较 “重要 ”的 词汇 ， 因 此 将 这 些 比较 重要 的 关键 词汇 索引 起 来 就 
可 以 回答 用 户 绝 大 多 数 的 查询 ， 相 比 于 全 文 索引 ， 该 方法 会 使 系统 性 能 有 较 大 的 提高 


3. 混 合 索引 技术 


数据 空间 需要 支持 多 种 查询 技术 ， 如 关键 字 查 询 、 基 于 属性 的 结构 化 查询 等 。 不 同 的 查询 往往 需要 不 同 的 索引 技术 ， 因 此 在 
数据 空间 系统 中 采用 了 混合 的 索引 技术 。 由 于 数据 存储 采用 三 元 组 的 结构 ， 其 带 来 的 好 处 是 能 够 使 数据 更 新 操作 不 依赖 于 模式 的 
约束 ， 从 而 更 加 灵活 方便 ， 但 是 会 带 来 查询 效率 问题 。 另 一 方面 ， 核 心 数 据 空间 分 类 结构 相对 比较 稳定 。 


在 原型 系统 OrientSpace 中 ， 将 核心 数据 空间 分 类 树 利用 普通 的 关系 表单 独 存放 ， 如 图 7-3 所 示 ， 采 用 三 个 关系 表 存 储 核心 


数据 空间 的 基本 信息 : 文件 基本 信息 表 、 用 户 日 志 表 、 核 心 数据 空间 分 类 表 。 详 细 如 下 : 


1) 文件 基本 信息 表 。 其 存储 文件 基本 信息 ， 主 要 包括 : 文件 标识 符 、 文 件 名 、 文 件 存放 路 径 、 最 近 修 改 时 间 、 最 近 访 问 时 


间 、 文 件 长 度 、 文 件 类 型 、 访 问 频率 、 访 问 类 型 等 。 


2) 用 户 日 志 表 。 其 主要 存储 用 户 操作 日 志 信息 ， 主 要 字段 包括 : 访问 时 间 、 文 件 名称 、 文 件 路 径 ， 以 及 操作 类 型 ， 其 中 操 


作 类 型 包括 “只 读 ” 和 “修改 ”。 


3) 核心 数据 空间 分 类 表 。 主 要 用 来 保存 用 户 文件 的 分 类 信息 。 主 要 属性 包括 分 类 编码 和 分 类 名 称 。 


在 原型 系统 OrientSpace 中 ， 针 对 这 些 基本 表 ， 基 于 传统 的 B 树 建立 索引 。 同 时 ,建立 了 三 元 组 的 数据 结构 存放 数据 对 象 及 


其 之 间 的 关系 。 
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图 7-3 ”核心 数据 空间 基本 数据 结构 


核心 数据 空间 分 类 是 一 个 树 形 结构 向 ， 其 中 每 个 节点 表示 一 种 分 类 ， 其 孩子 节点 表示 更 细 的 分 类 。 核 心 数据 空间 分 类 表 中 记 
录 的 不 仅 是 叶子 节点 表示 的 信息 ， 而 且 是 从 根 节点 到 该 叶子 节点 的 路 径 信息 。 在 系统 实现 中 采用 核心 数据 空间 分 类 表 来 存储 分 类 
结构 。 其 主要 包括 两 个 字段 : 节点 编号 和 类 型 信息 。 


例 7.2 表 7-2 显 示 了 一 个 核心 数据 空间 分 类 表示 例 。 


核心 数据 空间 分 类 表 中 的 内 容 是 预先 建立 的 。 但 是 对 于 一 些 分 类 属性 ， 如 目录 和 文件 类 型 ， 其 分 类 内 容 会 随 着 用 户 行为 日 志 
进行 更 新 。 例 如 ， 发 现 用 户 建立 了 新 的 目录 ， 或 者 访问 了 分 类 表 中 原来 没有 记忆 的 数据 类 型 ， 则 会 更 新 核心 数据 空间 分 类 表 。 


表 7-2 ”核心 数据 空间 分 类 表示 例 
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7.3.3 ”系统 开发 技术 
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个 人 数据 空间 往往 涉及 多 个 数据 源 ， 不 同 的 数据 源 可 能 采用 不 同 数据 逻辑 模式 和 存储 模式 。 比 如 有 的 个 人 数据 信息 采用 关系 
数据 库存 储 ， 有 的 采用 XML 进行 存储 ， 有 的 以 文件 的 方式 进行 存储 。 此 外 ， 个 人 用 户 往往 有 不 同 的 数据 管理 请 求 ， 需 要 采用 不 
同 的 软件 开发 技术 和 程序 设计 语言 ， 因 此 个 人 数据 信息 的 管理 会 用 到 多 种 软件 开发 技术 。 本 节 从 数据 存储 和 程序 设计 两 方面 对 于 


个 人 数据 空间 系统 开发 可 能 用 到 的 技术 进行 总 结 分 析 。 


1 数据 存储 


个 人 数据 管理 所 需要 的 往往 是 轻 量 级 的 数据 库 。 这 是 因为 : 与 企业 数据 库 相 比 ， 个 人 数据 量 总 的 来 说 还 是 小 一 些 ; 其 次 个 人 
数据 库 的 用 户主 要 是 所 有 者 本 人 ， 而 企业 数据 库 往往 会 包括 很 多 用 户 ， 并 且 这 些 用 户 的 权限 也 有 很 大 区 别 。 个 人 数据 库 对 于 用 户 
权限 管理 模块 和 并 发 控制 模块 的 要 求 并 不 高 ， 但 要 求 数据 库 安装 方便 、 操 作 简 单 。 这 类 数据 库 系统 包 括 微 软 的 Microsoft 


Access、SYSBASE 的 PB Anywhere 等 。 


2. 软 件 开发 工具 


目前 常 使 用 的 软件 开发 语言 包括 Java、C#， 这 些 语言 既 可 以 开发 基于 C/S 架 构 的 软件 系统 ， 也 可 以 开发 基于 B/S 架构 的 软件 
系统 ， 而 对 于 个 人 数据 空间 管理 系统 来 说 ， 其 应 该 是 一 个 包含 众多 软件 工具 的 综合 性 系统 平台 。 实 际 上 ， 试 图 创造 一 个 完备 的 能 
够 满足 所 有 用 户 要 求 的 数据 库 系统 是 不 太 现实 的 。 因 此 个 人 数据 空间 管理 系统 应 当 是 一 个 将 B/S 和 C/S 结 构 相 结合 的 体系 架构 ， 
即 有 些 模 块 需要 采用 B/S 架构 ， 其 目的 是 使 得 用 户 能 够 跨 平 台 随 时 随地 对 个 人 数据 空间 进行 访问 ; 另外 ， 一 定 有 一 些 程序 模块 应 
当 采 用 C/S 架 构 ， 这 些 程序 被 安装 于 计算 机 、 手 机 、 便 携 式 设备 等 ， 按 照 特定 的 需求 进行 数据 获取 、 集 成 、 融 合 等 数据 处 理 。 


因为 Web 是 一 个 最 大 的 个 人 信息 获取 数据 源 ， 因 此 网 页 信息 抽取 技术 也 是 一 个 最 常 使 用 的 技术 。 目 前 Java、C#、PHP 等 都 
可 以 用 来 开发 网 页 胞 取 程序 ， 具 体 如 何 从 网 页 中 抽取 所 需要 的 信息 ， 则 是 要 根据 具体 的 要 求 进行 设计 。Nutch 是 一 个 开源 Java 实 
现 的 搜索 引擎 ， 它 提供 了 运行 个 人 搜索 引擎 所 需 的 全 部 工具 ， 包 括 全 文 搜索 和 Web 爬 虫 ， 可 以 作为 网 页 信息 集成 的 框架 。 


图 片 、 视 频 等 也 是 个 人 信息 的 重要 部 分 ， 对 这 些 信 息 的 深层 次 的 处 理 则 需要 用 到 一 些 专门 针对 图 片 、 视 频 操作 的 类 库 ， 对 这 
些 信息 的 处 理 C、C++、 C# 等 程序 设计 语言 更 有 一 些 优势 。 


7.4 系统 框架 


基于 第 2 章 介绍 的 数据 空间 模型 以 及 相关 技术 ， 文 献 [0] 针 对 个 人 数据 空间 管理 ， 设 计 实 现 了 数据 空间 原型 系统 
OrientSpace。 图 7-4 所 示 为 OrientSpace 系 统 框架 。 其 包括 8 个 模块 : 


1) 用 户 接 口 模块 。 主 要 支持 用 户 实现 与 系统 的 交互 ， 如 查询 、 浏 览 等 。 


2) 反馈 信息 管理 模块 。 主 要 负责 监控 、 保 存 用 户 在 计算 机 上 的 反馈 行为 他 。 


Lu 
— 


数据 导入 模块 。 负 责 批量 导入 邮件 、 特 定 目录 下 的 个 人 数据 信息 。 


点 


仔 储 管理 模块 。 负 责 数据 对 象 的 存储 和 索引 。 

5) 关联 管理 模块 。 负 责 数 据 对 象 之 间 各 种 关联 关系 的 建立 和 维护 。 

6) 演化 管理 模块 。 负 责 基于 用 户 操作 日 志 建 立 数据 空间 ， 并 基于 用 户 操 作 不 断 更 新 数据 空间 。 
7) 查询 处 理 模 块 。 负 责 实现 各 种 查询 处 理 算法 ， 如 基于 核心 数据 空间 的 查询 、 任 务 查 询 等 。 


8) 任务 管理 模块 。 主 要 负责 基于 用 户 访 问 行为 自动 识别 用 户 任 务 ， 并 负责 识别 任务 之 间 的 关联 关系 并 进行 存储 ， 从 而 支持 
基于 任务 的 数据 操作 。 
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图 7-4 ”OrientSpace 系 统 架 构图 


由 图 7-4 可 以 看 出 ，OrientSpace 具 有 一 些 不 同 于 以 往 数 据 管 理 技术 的 特色 功能 ， 如 任务 管理 、 演 化 管理 、 数 据 关 联 管理 、 
用 户 反 馈 管 理 等 。 


[1] Y Li, X Zhang, X Meng.Exploring Desktop Resources Based on User Activity Analysis [C] .In Proceedings of the 33rd Annual ACM 
SIGIR Conference (SIGIR) , 2010. 
BPY Li, X Meng, Y Kou.An Efficient Method for Constructing Personal DataSpace [LC] .In Proceedings of The 6th Web Information 


Systems and Applications Conference (WISA) , IEEE, 2009: 3-8. 


7.5 系统 功能 


基于 本 书 所 提出 的 数据 空间 模型 和 查询 方法 ，OrientSpace 系 统 实现 了 一 些 极 具 特色 的 服务 功能 。 图 7-5 显 示 了 
OrientSpace 系 统 的 主 界面 ， 其 主要 包括 如 下 部 分 : 


1) 左上 部 分 是 数据 模式 维护 窗口 ， 用 户 根据 需要 方便 地 修改 数据 模式 。 

2) 左下 部 分 是 数据 输入 窗口 ， 用 户 可 以 输入 个 人 数据 信息 ， 如 电话 号 码 、 备 忘 信息 等 。 
3) 右边 最 上 面 的 输入 框 是 输入 关键 字 的 地 方 。 

4) 右 下 方 显示 用 户 访 问 过 的 核心 数据 文件 ， 并 基于 文件 与 用 户 的 相关 性 排序 。 


5) 右边 中 间 部 分 是 基于 任务 的 浏览 器 ， 用 户 可 以 浏览 所 做 的 任务 ， 按 照 任务 查询 所 需要 的 个 人 信息 。 
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图 7-5 ”OrientSpace 系 统 主 界 面 


用 户 查询 的 结果 既 可 以 通过 列表 的 方式 展示 ， 也 可 以 通过 图 形 的 方式 进行 展示 ， 以 显示 数据 对 象 之 间 的 关联 。 以 下 小 节 介 绍 
OrientSpace 系 统 的 一 些 特色 。 


7.5.1 “灵活 的 数据 更 新 操作 


在 OrientSpace 中 人 允许 用 户 根据 自己 的 意愿 自由 建立 、 修 改 和 删除 模式 ， 并 可 以 在 各 个 模式 下 自由 地 添加 实例 ， 从 而 体现 了 
数据 空间 所 提倡 的 “从 数据 到 模式 ”的 思想 。 用 户 一 开始 可 能 无 法 得 知 某 种 数据 的 具体 模式 ， 因 而 只 能 建立 一 个 初步 的 模式 ， 随 
着 用 户 对 模式 的 不 断 了 解 ， 系 统 中 的 模式 可 能 会 被 不 断 修改 ， 逐 渐 趋 近 最 终 完 整 的 模式 。 由 于 OrientSpace 在 底层 采用 RDF 作 为 
存储 支持 ，OrientSpace 人 允许 在 模式 变化 的 整个 过 程 中 随时 修改 、 增 加 、 删 除数 据 。 


7.5.2 ”关联 查询 


由 于 具有 高 度 的 异 质 性 ， 数 据 空间 中 的 数据 不 能 像 结构 化 数据 那样 提供 丰富 的 操作 。 这 其 中 一 个 重要 的 原因 就 是 个 人 数据 空 
间 中 缺乏 丰富 的 数据 项 之 间 的 天 联 信息 ， 数 据 之 间 不 能 形成 有 机 的 整体 ， 从 而 制约 服务 质量 。 因 此 数据 空间 中 一 个 重要 的 问题 就 
是 建立 数据 项 之 间 有 效 的 关联 。 


在 OrientSpace 中 使 用 了 一 套 基于 内 容 分 析 的 关联 建立 方法 ， 这 套 方 法 通过 对 数据 项 内 容 的 分 析 ， 在 数据 项 之 间 建 立 不 同类 
型 的 关联 ， 这 些 关 联 信息 将 被 用 来 支持 包括 基于 图 的 数据 浏览 在 内 的 各 种 服务 。 图 7-6 显 示 的 是 数据 空间 中 丰富 的 关联 信息 。 


各 种 关联 关系 的 建立 使 得 用 户 可 以 基于 关联 查找 数据 信息 。 用 户 常常 会 忘记 要 寻找 的 文档 的 准确 信息 ， 如 关键 字 、 存 放 位 置 
等 ， 而 可 能 记 起 与 该 文件 相关 的 其 他 文件 的 信息 。 


例 7.3 ”用 户 希 望 查找 一 封 邮件 ， 忘 记 了 邮件 主题 等 信息 ， 但 可 能 记得 这 封 邮 件 的 附件 的 一 个 关键 字 。 这 时 就 可 以 从 关键 字 
入 手 ， 先 找到 附件 所 对 应 的 文件 ;然后 通过 邮件 和 附件 之 间 的 关联 关系 进一步 找到 该 邮件 。 






driving direct cp issuance tdrankedevents-old 


Contact//1 223614825718 


| evolution in dataspace 


咀 principles ofdataspace systems 


SE To OW1223615093890 
TEA hentitiAg and understanding dates and times in email 


图 7-6 ”OrientSpace 中 的 数据 以 及 数据 间 的 关联 


图 7-7 显 示 了 数据 空间 中 数据 对 象 天 联 图 的 一 个 实例 。 可 以 看 出 ， 用 户 可 以 通过 各 种 关联 找到 自己 要 找 的 数据 项 ， 如 果 在 这 
个 关联 图 中 找 不 到 ， 还 可 以 从 图 中 的 某 个 其 他 节点 将 图 继续 展开 ， 直 到 找到 最 后 需要 的 数据 项 。 这 种 从 关键 字 查 询 出 友 ， 结 合 
结构 的 数据 查询 方式 充分 利用 了 用 户 的 思维 习惯 ,提供 了 利用 关联 信息 进行 查询 的 方法 ， 能 够 在 无 法 一 次 性 准确 定位 数据 时 实现 
高 效 的 查询 。 
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图 7-7 数据 项 的 关联 图 


7.5.3 ”基于 任务 查询 


OrientSpace 系 统 支 持 两 种 基于 任务 的 查询 功能 : 


1) 任务 查询 浏览 功能 。 用 户 可 以 通过 输入 关键 字 等 条 件 查询 相关 的 任务 ， 在 图 7-8 显 示 的 任务 列表 中 选择 任务 ， 会 看 到 与 
该 任务 相关 的 数据 文件 ， 从 而 可 以 支持 用 户 进一步 完成 基于 任务 的 数据 操作 ， 如 数据 备份 、 任 务 切换 等 。 


2) 基于 任务 查找 特定 数据 文件 。 由 于 在 任务 空间 中 建立 了 关联 关系 ， 从 而 可 以 实现 基于 任务 的 关联 查询 。 


例 7.4 ”如 图 7-8 所 示 ， 用 户 希 望 查 找 文件 A， 但 是 不 能 够 回忆 起 文件 A 的 准确 的 属性 信息 ， 如 文件 名 或 关键 字 。 但 是 可 以 回 
忆 起 文件 B 的 关键 字 ， 并 且 知 道 文件 A 和 文件 B 均 与 任务 “参加 国际 会 议 SIGIR 2010” 有 关 ， 那 么 通过 输入 关键 字 信息 可 以 查找 
文件 B， 进 而 找到 任务 “参加 国际 会 议 SIGIR 2010”， 从 而 可 以 进一步 找到 所 需要 的 数据 文件 。 图 7-8 显 示 了 该 查询 的 示意 图 。 
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图 7-8 基于 关联 的 数据 查询 示例 


7.5.4 ”核心 数据 空间 查询 
OrientSpace 支 持 以 下 核心 数据 空间 查询 功能 : 


1. 基 于 主体 相关 度 的 核心 数据 空间 排序 


在 缺 省 状态 下 ， 核 心 数据 空间 显示 所 有 用 户 访问 过 的 数据 信息 ， 并 基于 与 主体 的 相关 度 对 个 人 计算 机 中 的 数据 文件 进行 排 
序 。 在 很 多 情况 下 ， 通 过 核心 数据 空间 浏览 数据 窗口 ， 用 户 就 可 以 方便 地 找到 相关 信息 。 


2. 可 视 化 多 面 查 询 功能 


用 户 可 以 利用 第 6 章 所 提出 的 查询 接口 ， 基 于 记忆 信息 查找 个 人 数据 信息 ， 对 于 查询 结果 ， 用 户 还 可 以 进行 再 处 理 ， 如 按照 
特定 属性 排序 、 过 滤 等 。 该 窗口 将 关键 字 查询 与 基于 属性 查询 合并 在 一 起 ， 从 而 使 用 户 查 询 效率 更 高 。 


除了 具有 以 上 特色 的 功能 外 ，OrientSpace 系 统 也 支持 传统 的 数据 查询 方式 ， 如 关键 字 查 询 、 基 于 目录 的 资源 管理 器 等 。 由 
于 采用 了 可 选择 的 多 级 索引 等 技术 ， 因 此 查询 效率 更 高 。OrientSpace 所 提供 的 资源 管理 器 实际 上 是 一 个 内 容 更 加 简洁 的 资源 管 
理 器 ， 因 为 其 显示 的 目录 都 是 用 户 访问 过 的 目录 信息 ， 所 以 用 户 浏览 查询 起 来 会 更 加 便捷 。 
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本 章 讨论 了 实现 个 人 数据 空间 所 涉及 的 技术 ， 包 括 数据 空间 构建 、 演 化 、 存 储 索 引 等 ， 介 绍 了 一 个 实际 的 个 人 数据 空间 系统 
一 一 OrientSpace， 对 其 具有 的 特色 功能 进行 了 介绍 。 该 系统 在 数据 空间 的 组 织 以 及 查询 处 理 方面 考虑 了 用 户 的 行为 模式 ， 能 
完成 一 些 其 他 工具 无 法 完成 的 功能 。 辟 的 来 说 ， 个 人 数据 空间 仍 是 一 个 不 断 发 展 的 研究 领域 ， 随 着 新 的 理论 成 果 的 出 现 ， 系 统 实 
现 技术 也 会 不 断 地 发 展 ， 新 的 数据 空间 管理 系统 会 不 断 出 现 。 


随 着 数据 空间 相关 技术 研究 的 深入 ， 如 何 实现 一 个 数据 空间 系统 成 为 大 家 关注 的 问题 ， 一 些 学 者 研发 了 针对 个 人 数据 空间 的 
系统 ， 如 iMemex[J、SemexI 四 、MyLifeBiB]、HayStack 内 等 。OrientSpaceD] 是 本 书 作 者 及 其 研究 团队 基于 多 年 的 研究 成 果 
研发 的 针对 个 人 数据 空间 的 管理 系统 ， 其 支持 基于 属性 和 关键 字 的 索引 方法 加 、 基 于 核心 数据 空间 的 数据 查询 [/]、 基 于 任务 的 数 
据 空间 查询 等 功能 ,实现 了 数据 空间 的 自动 构建 (61。 
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第 8 草 ”个 人 数据 管理 技术 友 展 


8.1 引言 


随 着 移动 设备 的 普及 和 移动 互联 网 的 发 展 ， 人 们 收集 、 保 存 和 访问 个 人 数据 变 得 更 加 便利 ， 同 时 也 出 现 了 一 些 新 的 问题 ， 比 
如 ， 如 何 存 储 越 来 越 多 的 个 人 数据 ; 如 何 保证 其 安全 性 和 隐私 信息 不 被 泄露 ; 如 何 实 现 跨 媒 体 、 跨 数据 源 的 数据 融合 ; 个 人 数据 
管理 和 其 他 学 科 的 结合 会 带 来 哪些 新 的 研究 问题 等 。 本 章 将 围绕 这 些 问 题 ， 对 个 人 数据 管理 技术 的 发 展 进 行 分 析 与 展望 。 
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8.2 ”数据 存储 


随 着 网 络 技 术 的 发 展 以 及 可 穿戴 设备 的 应 用 与 普及 ， 人 们 的 一 言 一 行 、 一 举 一 动 都 可 能 被 记录 下 来 ， 个 人 数据 量 将 会 非常 庞 
大 。 如 何 安全 地 存储 这 些 数据 就 成 为 不 可 回避 的 问题 。 实 际 上 ， 人 们 随时 可 能 遇 到 自己 感 兴趣 或 认为 有 价值 的 信息 ， 但 由 于 环境 
的 局 限 性 ， 当 遇 到 这 些 信息 的 时 候 可 能 并 没有 有 效 的 办 法 采集 并 将 其 存储 在 合适 的 空间 中 ， 而 是 随意 存放 在 某 个 地 方 ， 这 样 就 造 
成 了 个 人 数据 的 分 散人 存储， 为 日 后 的 访问 带 来 不 便 ， 也 会 带 来 数据 安全 问题 ; 此 外 ， 数 据 人 存储 也 有 成 本 问题 。 存 储 成 本 不 仅 包括 
购买 存储 设备 或 网 络 人 存储 空间 等 直接 费用 支出 ， 也 应 包括 在 存储 个 人 数据 过 程 中 所 人 花费 的 时 间 、 精 力 等 成 本 。 数 据 人 存储 作为 管理 
数据 的 第 一 步 ， 在 个 人 数据 管理 的 各 个 环节 中 具有 重要 作用 ， 已 经 引起 学 术 界 和 产业 界 的 关注 。 


8.2.1 ”分布 式 存 储 模 式 


个 人 数据 存储 需要 满足 两 个 要 求 : 保证 数据 安全 和 便于 数据 操作 的 实现 。 个 人 数据 具有 大 规模 、 分 布 、 异 构 的 特征 ， 将 所 有 
个 人 数据 集中 存储 不 是 一 种 理想 的 策略 ， 一 方面 由 于 主体 操作 行为 的 多 样 性 ， 个 人 数据 自然 地 存放 在 众多 的 设备 和 数据 源 中 ， 将 
众多 的 数据 集中 转 存 到 特定 的 设备 上 是 一 项 成 本 很 高 的 工作 。 比 如 ， 用 户 的 邮件 、 聊 天 信息 、 个 人 文档 、 开 发 的 程序 等 很 自然 地 
存放 在 不 同 的 位 置 ， 强 行将 其 集中 存放 会 带 来 很 大 的 开销 ， 比 如 要 不 停 地 移动 文件 。 另 一 方面 集中 存储 也 需要 大 规模 、 安 全 的 存 
储 空间 ， 尽 管 目前 的 硬件 人 存储 能 力 已 大 大 提高 ， 但 是 将 所 有 个 人 数据 信息 集中 存储 在 某 个 存储 设备 上 仍然 不 是 一 件 容易 的 事情 ， 
比如 ， 一 个 人 喜欢 的 歌曲 和 电影 的 数据 量 会 很 大 。 


因此 ， 第 7 章 提出 的 分 布 式 数据 存储 成 为 一 种 可 取 的 数据 空间 存储 方式 []。 与 这 种 分 布 式 存储 模式 相 适 应 ， 数 据 存 取 方法 也 
是 需要 进一步 研究 的 内 容 。 不 同 的 存储 设备 、 网 络 环境 会 有 区 别 ， 人 存储 策略 的 选择 必须 考虑 这 些 不 同 。 因 此 需要 研究 与 之 相 适 应 
的 索引 技术 。 


[1] 李 玉 坤 ， 任 标 ， 赵 喜 燕 ， 等 .个 人 数据 管理 技术 研究 []] .计算 机 科学 与 探索 ，2014 (11) : 1281-1295. 


8.2.2 ”基于 云 人 存储 的 个 人 数据 管理 


云 存 储 日 益 成 为 一 种 被 广泛 认可 的 数据 存储 方式 ， 其 指 通 过 集群 应 用 、 网 络 技术 或 分 布 式 文件 系统 等 功能 ， 将 网 络 中 大 量 的 
存储 设备 通过 应 用 软件 集合 起 来 协同 工作 ， 共 同 对 外 提供 数据 存储 和 业务 访问 功能 。 简 单 来 说 ， 云 存储 为 用 户 提供 了 一 种 经 济 、 
方便 、 快 捷 的 数据 存储 方式 ， 使 用 者 可 以 在 任何 时 间 、 任 何 地方 ， 通 过 任何 可 联网 的 装置 方便 地 存 取 数据 。 目 前 有 很 多 专业 服务 
厂商 提供 各 种 云 存储 服务 ， 其 中 最 普通 的 是 空间 租用 服务 ， 用 户 只 需 注册 付费 就 可 以 获得 一 定数 量 的 网 络 存储 空间 ， 并 且 可 以 像 


使 用 本 地 磁盘 一 样 方便 地 进行 使 用 ;也 有 服务 商 提 供 更 多 深层 次 服务 ， 如 虚拟 主机 服务 ， 享 受 此 服务 的 用 户 可 以 像 使 用 自己 的 主 
机 一 样 对 云 存储 空间 进行 管理 ， 包 括 安 装 自己 需要 的 各 种 软件 。 随 着 云 存 储 模式 日 益 被 用 户 接受 ， 针 对 个 人 数据 云 存储 的 一 些 问 
题 也 日 益 引 起 大 家 的 关注 和 研究 。 


有 学 者 针对 个 人 云 存 储 服务 用 户 满意 度 情况 及 相关 因素 进行 了 调查 ， 以 每 个 顾客 满意 度 指数 为 理论 基础 构建 个 人 云 存储 用 户 
满意 度 概念 模型 ， 通 过 问卷 调查 收集 用 户 数据 ， 利 用 结构 方程 模型 和 相关 软件 对 数据 进行 分 析 和 处 理 ， 为 优化 和 提升 个 人 云 存 储 
服务 提供 了 指导 和 借鉴 1/]。 也 有 学 者 提出 了 基于 P2P 模 式 的 个 人 云 存储 架构 。 通 过 对 个 人 云 存储 应 用 的 模式 深入 分 析 ， 提 出 了 去 
中 心 化 的 全 P2P 架 构 的 云 存储 应 用 模型 。 其 通过 P2P 架 构 对 网 络 中 的 各 终端 资源 加 以 有 效 利用 ， 大 大 地 降低 了 云 存 储 的 部 署 、 运 
维 成 本 ， 具 有 较 高 的 实用 价值 由。 


云 人 存储 突出 的 优点 是 ， 无 论 用 户 在 什么 地 方 ， 只 要 能 够 连接 互联 网 ， 就 可 以 访问 到 个 人 数据 。 同 时 ， 完 全 采用 云 人 存储 方式 保 
存 个 人 数据 也 会 有 一 些 问题 。 


1. 存 储 空间 的 局 限 性 


尽管 目前 许多 服务 商 承 诺 可 以 提供 很 大 的 空间 存放 个 人 数据 ， 实 际 上 ， 随 着 个 人 数据 量 的 迅猛 增长 ， 将 所 有 个 人 数据 信息 存 
放 在 云 存 储 空间 中 是 难以 办 到 的 。 这 样 就 有 一 个 问题 : 到 底 哪些 数据 需要 存放 在 云 空间 中 ; 如 何 快速 及 时 地 把 相关 数据 信息 存放 
到 云 空间 中 。 


2. 数 据 的 同步 


目前 大 多 服务 商 只 是 提供 简单 的 个 人 数据 上 传 功能 ， 需 要 用 户 指定 个 人 计算 机 上 的 某 个 目录 与 云 存储 空间 同步 ， 系 统 自动 将 
指定 目录 下 文件 的 更 新 同步 反馈 到 对 应 的 云 存储 空间 中 ， 这 就 需要 用 户 必须 将 希望 存储 到 云 空 间 的 数据 及 时 存放 到 指定 目录 下 。 
实际 上 ， 因 为 各 种 原因 ， 人 们 经 常会 将 个 人 数据 信息 随意 人 存放， 要求 用 户 必 须 在 指定 的 某 个 或 某 几 个 目录 下 存放 个 人 文件 并 不 容 
易 办 到 。 因 此 ， 如 何 自动 识别 计算 机 和 移动 设备 上 的 个 人 数据 及 其 更 新 情况 ， 并 自动 适时 地 更 新 到 云 存 储 空间 ， 仍 是 需要 研究 解 
决 的 问题 。 


3 .数据 安全 


目前 提供 云 存 储 服务 的 商家 很 多 ， 用 户 有 许多 对 于 个 人 来 说 非常 重要 的 数据 ， 这 些 数 据 可 能 会 有 一 些 隐私 的 信息 ， 如 个 人 的 
账号 信息 、 电 话 、 住 址 ， 以 及 个 人 的 一 些 研究 成 果 等 ， 用 户 既 希望 把 这 些 信息 存放 到 网 络 空 间 以 便 日 后 方便 地 进行 访问 ， 同 时 又 
不 希望 这 些 信息 泄露 给 不 应 该 看 到 的 人 。 有 学 者 提出 了 基于 云 计 算 的 个 人 数据 安全 策略 Bj， 目 前 来 看 这 仍然 是 一 个 重要 的 研究 领 
域 ， 有 许多 基础 性 问题 需要 进一步 研究 。 比 如 个 人 隐私 信息 的 识别 、 轻 量 级 的 加 密 算 法 、 数 据 加 密 与 数据 访问 之 间 的 矛盾 等 。 


4. 访 问 性 能 问题 


目前 的 云 存储 服务 平台 大 多 只 是 提供 存储 空间 ， 用 户 只 能 像 使 用 本 地 磁盘 一 样 存储 和 访问 个 人 文件 ， 并 没有 提供 基于 众多 属 
性 的 语义 查询 功能 。 比 如 用 户 无 法 根据 文件 的 访问 次 数 、 修 改 次 数 、 文 件 内 容 、 包 含 的 关键 字 及 其 同义词 等 信息 进行 查询 。 访 问 
性 能 的 问题 主要 包括 两 方面 : 一 是 提供 云 存 储 的 服务 器 及 网 络 原因 造成 的 访问 效率 问题 ; 二 是 由 于 云 存 储 系 统 功能 的 局 限 性 造成 
的 查找 、 访 问 效率 问题 。 因 此 ， 要 想 提 高 云 存 储 访问 效率 ， 不 仪 需要 服务 商 提 高 硬件 及 网 络 的 性 能 ,而且 需 要 存储 空间 管理 策略 
及 算法 的 持续 改进 ， 具 体 包括 空间 分 配 与 管理 、 数 据 组 织 与 索引 、 基 于 语义 的 数据 查询 、 查 询 结果 排序 、 多 用 户 并 发 控制 等 。 随 
着 针对 大 数据 管理 相关 技术 成 果 的 推广 应 用 ， 基 于 云 存储 的 个 人 数据 访问 效率 将 会 进一步 提高 。 


尽管 云 存 储 还 会 面临 诸多 的 问题 ， 但 其 方便 性 仍 会 使 得 越 来 越 多 的 个 人 用 户 将 其 作为 存放 个 人 数据 的 重要 手段 ， 随 着 研究 的 


深入 ， 其 涉及 的 问题 也 会 逐步 得 到 解决 。 


[1 占 南 ， 谢 笑 ， 王 文 志 .基于 ACSI 模 型 的 个 人 云 存储 服务 质量 评价 模型 研究 []] ， 情 报 杂 志 ，2014 (6) : 187-194. 
D] 朱峰 .基于 P2P 原 理 的 个 人 云 存 储 应 用 研究 [D] .上 海 : 复旦 大 学 ，2012. 
[3] 吴 慧 玲 ， 赵 卓 . 基 于 云 计 算 的 个 人 信息 安全 保护 研究 [J] .网 络 安全 技术 与 应 用 ，2014 (5) : 178-179 


8.2.3 ”个 人 数据 缓存 策略 


个 人 数据 存储 的 目标 应 当 是 : 无 论 何 时 何 地 ， 主 体 都 可 以 便捷 地 访问 个 人 的 任何 数据 信息 。 如 前 所 述 ， 个 人 数据 存储 在 众多 
的 设备 或 空间 中 ， 这 些 设备 或 空间 是 否 能 保证 随时 随地 被 访问 是 一 个 问题 ， 比 如 个 人 计算 机 是 否 能 够 随时 带 在 身边 并 处 于 开机 状 
态 ; 所 处 的 环境 是 否 能 够 随时 访问 互联 网 等 。 要 达到 这 一 要 求 ， 需 要 将 个 人 所 有 的 数据 信息 存放 在 随时 随地 可 以 访问 的 存储 空间 
中 。 这 就 带 来 了 如 下 问题 : 首先 ， 对 于 个 人 来 说 购置 安装 一 台 存 储 能 力 足够 强大 、 能 够 保证 数据 安全 且 通 过 互联 网 可 以 随时 访问 
的 服务 器 会 是 一 笔 较 大 的 开销 ， 这 不 是 所 有 用 户 都 可 以 做 到 的 。 同 时 ， 这 样 的 集中 存放 也 会 带 来 如 下 问题 : 由 于 故障 是 不 可 避免 
的 ， 当 该 服务 器 出 现 故 障 的 时 人 息 ， 就 无 法 再 实现 对 个 人 数据 的 有 效 访问 。 基 于 此 ， 本 书 作者 提出 了 如 图 8-1 所 示 的 基于 缓存 的 存 
储 策略 。 其 基本 思想 是 : 设 定 一 个 随时 可 以 访问 的 网 络 空间 作为 个 人 数据 缓冲 区 ， 将 用 户 经 常 访问 的 个 人 数据 信息 存储 在 缓冲 
区 ， 当 用 户 访问 个 人 数据 的 时 候 ， 先 检查 缓冲 区 数据 ， 如 果 不 能 找到 所 需要 的 数据 ， 然 后 再 基于 整个 数据 空间 检索 需要 的 数据 
项 。 该 策略 涉及 的 技术 有 以 下 几 个 方面 。 


2 i 数据 缓存 区 
WE 





图 8-1 基于 缓存 的 个 人 数据 存储 策略 


1) 数据 置换 算法 。 用 户 访问 的 数据 是 不 断 变化 的 ， 这 就 需要 缓冲 区 内 的 数据 也 不 断 变化 ， 因 此 需要 与 之 相 适 应 的 数据 置换 
算法 ， 即 不 断 将 用 户 访问 概率 低 的 数据 置换 出 去 ， 将 访问 概率 高 的 数据 置换 进 缓冲 区 。 因 此 如 何 自动 地 标识 并 更 新 各 数据 项 的 访 
问 概率 并 将 访问 概率 高 的 数据 项 适时 地 置换 到 缓冲 区 中 是 需要 解决 的 首要 问题 。 针 对 类 似 问 题 ， 已 有 的 方法 并 不 少 ， 如 操作 系统 
中 针对 内 存 页 面 调 度 的 先进 先 出 (FIFO) 、 最 近 最 少 使 用 (LRU) 等 算法 。 由 于 个 人 数据 缓冲 区 的 大 小 、 访 问 效率 、 各 人 存储 空 
间 的 性 能 等 因素 与 内 存 调 度 的 场景 并 不 完全 相同 ， 这 些 方法 能 否 直接 应 用 到 个 人 数据 空间 缓存 区 管理 需要 进一步 研究 。 


2) 缓存 区 的 存储 位 置 的 选择 。 选 择 什么 设备 或 存储 空间 作为 数据 绥 存 区 是 一 个 需要 其 酌 的 问题 。 数 据 缓存 区 的 选择 需要 考 
虑 众多 因素 : 随时 随地 的 可 访问 性 、 访 问 的 快捷 性 、 数 据 存储 的 安全 性 。 由 此 可 见 ， 选 定 经 济 安 全 的 个 人 网 络 空间 或 便携 式 设备 
作为 缓冲 区 为 好 。 为 进一步 增加 数据 的 可 访问 性 ， 建 议 设 定 两 个 存储 空间 作为 数据 缓存 区 ， 其 中 一 个 是 另 一 个 的 镜像 ， 这 样 当 其 
中 一 个 缓冲 区 出 现 故 障 的 时 候 ， 另 一 个 缓冲 区 可 以 保证 访问 不 受 影 响 ， 从 而 将 进一步 增加 数据 可 访问 性 。 


目前 个 人 数据 缓存 策略 仍 只 是 一 个 初步 的 想法 ， 仍 有 许多 基础 问题 需要 研究 解决 ， 比 如 缓冲 区 的 选择 、 数 据 的 调度 方法 、 缓 
冲 区 数据 索引 、 缓 冲 区 之 间 的 数据 同步 等 。 


8.3 数据 安全 与 隐私 保护 


很 多 人 会 把 数据 安全 和 隐私 保护 混在 一 起 ， 其 实 两 者 是 有 区 别 的 。 数 据 安 全 是 指 防止 别人 获取 不 应 访问 的 数据 ， 而 隐私 是 指 
在 可 公开 数据 中 如 何不 泄露 个 体 信息 。 本 节 将 针对 个 人 数据 安全 及 隐私 保护 问题 进行 讨论 。 


8.3.1 数据 安全 
传统 的 数据 库 系 统 的 安全 性 是 指 保护 数据 库 以 防止 不 合法 地 使 用 所 造成 的 数据 泄露 、 更 改 或 破坏 。 除 了 恶意 的 破坏 ， 数 据 存 
储 介质 、 计 算 机 软 硬 件 也 不 可 避免 地 会 造成 损坏 ， 这 些 都 会 造成 数据 的 破坏 。 针 对 这 些 问 题 ， 传 统 的 安全 策略 [1] 包 括 


1) 针对 非法 用 户 访问 数据 的 问题 ， 数 据 库 采 取 自 主人 存 取 控制 、 强 制 存 取 控 制 等 多 种 策略 ， 保 证 数据 只 能 被 合法 的 用 户 访 
问 。 


2) 针对 系统 故障 问题 ， 数 据 库 采 用 了 基于 事务 的 数据 备份 和 数据 恢复 技术 ， 从 而 保证 数据 的 正确 性 。 


3) 针对 介质 故障 ， 数 据 库 采 用 宛 余 的 策略 ， 具 体 包括 数据 转 储 技术 、 数 据 库 镜像 等 ， 通 过 及 时 地 备份 数据 来 保证 数据 安 
全 。 


但 是 这 些 技术 大 都 是 针对 企业 的 特点 来 实现 的 ， 而 个 人 用 户 和 企业 有 显著 不 同 。 具 体 如 表 8-1 所 示 。 


表 8-1 个 人 数据 安全 和 企业 数据 安全 的 比较 

















比较 项 传统 数据 库 个 人 数据 空间 
用 户 数量 企业 中 的 大 量 用 户 仅 供 个 人 使 用 
存放 方式 集中 存储 分 散 存 储 
安全 投入 购买 专业 服务 需 设 备 和 软件 - 般 不 会 购买 昂贵 的 软 硬 件 
数据 管理 员 专业 的 数据 管理 员 用 户 自 己 





从 用 户 数量 来 看 ， 传 统 数 据 库 一 般 供 企业 中 大 量 用 户 共同 使 用 ， 个 人 数据 一 般 来 说 仅 供 个 人 使 用 ;从 数据 存放 方式 来 看 ， 企 
业 数 据 库 一 般 是 集中 式 的 ， 即 数据 集中 存放 在 特定 的 服务 器 和 数据 库 系统 中 ， 而 个 人 是 没有 能 力 购买 大 型 的 服务 器 来 存放 个 人 数 
据 的 ， 因 此 个 人 数据 通常 分 散 存 储 在 各 类 设备 和 系统 当中 ; 从 对 解决 安全 问题 的 投入 来 看 ， 企 业 一 般 要 购买 大 量 元 余 的 硬件 设备 
和 系统 软件 来 保证 数据 安全 ， 而 个 人 一 般 没 有 这 种 实力 ; 从 数据 管理 的 角度 ， 企 业 一 般 有 专门 的 数据 库 管理 员 ， 其 具有 数据 管理 
方面 的 专业 知识 ， 而 个 人 用 户 一 般 不 会 有 专门 的 数据 管理 员 ， 数 据 空间 的 所 有 者 本 人 就 是 数据 的 管理 员 ， 由 于 主体 的 差别 ， 要 求 
每 个 用 户 具 有 数据 库 管理 员 的 专业 知识 也 是 不 现实 的 。 因 此 针对 个 人 数据 应 采用 区 别 于 企业 数据 的 安全 策略 。 下 面 主要 介绍 个 人 
存储 设备 、 网 络 存储 空间 和 信息 交流 方面 相关 的 数据 安全 问题 。 


1. 硬 件 介质 损毁 造成 的 安全 性 问题 


随 着 个 人 数据 量 的 增 大 ， 人 们 对 数据 的 依赖 性 增强 ， 其 安全 性 变 得 更 加 突出 。 多 数 人 遇 到 过 这 种 情况 ， 个 人 计算 机 硬盘 的 损 
坏 使 极其 重要 的 个 人 数据 毁 于 一 旦 ; 手机 的 损坏 或 丢失 使 其 丢失 了 个 人 通讯 录 、 照 片 等 重要 数据 ; 等 等 。 由 于 个 人 数据 仓储 模式 
不 同 于 传统 数据 库 ， 个 人 数据 安全 策略 有 其 自身 的 特点 。 对 于 硬件 损坏 带 来 的 安全 问题 ， 目 前 人 们 通常 考虑 的 安全 策略 是 备份 ， 


比如 将 重要 的 个 人 数据 信息 备份 到 互联 网 上 ， 如 云 存储 空间 或 自己 的 邮箱 。 这 样 当 自己 的 计算 机 、 手 机 等 硬件 设备 损坏 后 ， 可 以 
通过 备份 进行 恢复 。 但 是 这 种 方法 也 会 带 来 如 下 问题 。 


* 数据 备份 的 及 时 性 。 多 数 用 户 一 般 没 有 随时 备份 个 人 数据 的 习惯 。 


. 手工 的 数据 备份 会 给 用 户 带 来 一 些 额 外 的 负担 。 比 如 需要 时 刻 想 着 及 时 备份 ， 实 际 上 用 户 并 不 容易 记 住 自己 改动 的 文件 ， 
因此 手工 备份 会 成 为 用 户 额外 的 负担 。 


因此 需要 研究 自动 、 及 时 、 增 量 的 个 人 数据 备份 策略 。 
2. 云 存储 的 数据 安全 


用 户 将 个 人 数据 存储 在 云端 ， 其 中 不 乏 至 关 重 要 的 数据 。 要 保证 这 些 数据 的 安全 性 ， 需 要 从 两 个 方面 来 考虑 : 一 是 从 服务 提 
供 商 的 角度 ， 通 过 严格 的 管理 措施 、 技 术 措施 和 法 律 措施 来 保证 个 人 数据 的 安全 性 ， 并 为 用 户 做 出 承 诬 ; 二 是 用 户 自身 采取 措施 
保证 个 人 数据 信息 的 安全 性 。 从 技术 上 来 说 ， 不 管 是 从 服务 商 角度 还 是 从 用 户 角度 ， 最 常用 的 办 法 还 是 数据 加 密 ， 其 显而易见 的 
问题 是 由 此 带 来 数据 操作 代价 的 提升 。 由 于 云 存储 系统 中 记录 的 是 加 密 的 数据 ， 对 于 查询 条 件 的 判断 会 变 得 非常 复杂 。 因 此 ， 如 
何 做 到 数据 安全 和 操作 算法 效率 的 平衡 是 解决 云 存 储 数 据 安全 性 的 主要 问题 之 一 。 


3. 信 息 交 流 中 的 数据 安全 


对 于 网 络 信息 交流 中 的 数据 安全 问题 ， 需 要 研究 轻 量 级 的 个 人 数据 加 密 算法 。 本 书 作者 提出 了 基于 两 段 锁 的 信息 加 密 算法 ， 
具体 如 下 。 


基于 现 有 的 加 密 技术 ， 通 过 两 个 聊天 客户 端 之 间 的 三 次 握手 、 两 次 加 密实 现 用 户 聊天 信息 的 加 密 。 
假设 A 方 要 向 B 方 发 送 即 时 信息 ， 具 体 步 又 如 下 : 


1) 寻找 满足 如 下 条 件 的 加 密 方法 f 和 g， 对 于 任意 字符 串 s，s=g-1 (f-1 (g (f (s) ) ) ) 。 其 中 f-1 和 9g-1 分 别 对 应 f 和 g 的 


解密 算法 。 


图 


2) 对 A 方 拟 发 送 的 消息 字符 串 M 进 行 加 

客户 端 A (发 送 端 ) 通过 使 用 自 定 义 的 加 密 方法 f， 对 发 送 的 消息 M 进 行 加 密 得 到 加 密 后 的 密 文 M1=f (M) ， 将 密 文 M1 发 
送 至 客户 端 B (接收 端 ) 。 

客户 端 B 接 收 M1 并 通过 原型 系统 使 用 自 定义 加 密 方 法 9 对 M1 再 次 加 密 得 到 二 次 密 文 M2=g (M1) =g (f (M) ) ， 将 密 文 
M2 发 送 至 客户 端 A。 

客户 端 A 接 收 M2， 使 用 {对 应 的 解密 方法 f°1， 对 M2 进行 解密 得 到 M3=f-1 (9 (f (M) ) ) ， 将 密 文 M3 发 送 至 客户 端 8， 客 
户 端 B 通 过 使 用 加 密 方法 9 对 应 的 解密 方法 9 1 对 M3 解 密 ， 即 可 获得 消息 明文 M4=g-1 (f-1 (g (f (M) ) ) ) =M。 

可 以 看 出 ,每 个 客户 端 中 存在 两 套 密 钥 ， 分 别 作为 友 送 端 和 接收 端的 密 钥 ， 并 且 每 次 聊天 结束 后 ， 密 钥 需 进行 更 新 ， 同 时 对 


历史 记录 的 加 密 方法 进行 更 新 ， 避 免 密 钥 泄 露 带 来 的 数据 内 容 的 泄露 。 此 外 ， 这 种 加 密 策略 对 于 加 密 算法 有 一 定 的 要 求 ， 即 发 送 
端 和 接收 端 所 使 用 的 加 密 方法 对 于 彼此 的 解密 是 互 不 影响 的 。 


上 述 安全 策略 具有 如 下 优点 : 其 使 得 即时 通信 过 程 中 的 消息 始终 处 于 通信 双方 密 钥 的 保护 之 中 ， 并 且 保 证 了 聊天 信息 只 被 通 
言 双 方 查看 ， 从 而 隔离 了 即时 通信 服务 提供 商 对 用 户 聊天 信息 的 非法 访问 。 


上 王 珊 ， 萨 师 烛 .数据 库 系 统 概论 [Mj] .北京 : 高 等 教育 出 版 社 ，2006. 


8.3.2 ”隐私 保护 


组 


言 息 技术 的 发 展 使 得 人 们 的 日 常生 活 和 工作 越 来 越 依赖 计算 机 和 互联 网 ， 不 管 人 们 是 否 愿 意 ， 但 只 要 你 希望 享受 网 络 带 来 
诸多 便利 ， 就 不 得 不 在 网 上 存储 或 留 下 自己 的 一 些 个 人 信息 ， 从 而 可 能 导致 数据 安全 和 隐私 泄露 问题 ， 比 如 当 一 个 人 需要 享受 网 
上 购物 、 文 献 查阅 等 服务 的 时 候 ， 就 必须 提供 真实 、 准 确 的 个 人 信息 ， 包 括 邮 箱 、 住 址 、 工 作 单位 、 电 话 等 。 如 何 保证 这 些 信 息 
不 被 别有用心 的 人 使 用 ， 就 成 为 一 个 具有 挑战 性 的 问题 。 几 乎 每 个 人 都 会 有 这 样 的 经 历 ， 经 常 接收 到 莫名 的 电话 推荐 贷款 、 理 
财 、 购 物 等 服务 ， 当 我 们 真 的 急需 这 种 服务 的 时 候 ， 可 能 会 觉得 这 是 一 件 好 事 ， 但 是 当 我 们 并 不 需要 这 些 服务 而 频繁 地 被 这 样 的 
电话 或 邮件 骚扰 ， 这 就 成 为 让 人 厌烦 的 事情 ， 我 们 不 茶会 问 : 这 些 打 电话 的 人 是 如 何 得 知 我 的 个 人 信息 的 。 


目前 个 人 隐私 保护 已 经 成 为 非常 重要 的 研究 课题 ， 涉 及 的 内 容 非常 广泛 ， 包 括 个 人 设备 隐私 信息 保护 、 互 联网 隐私 信息 保 
护 、 社 交 网 络 中 的 隐私 保护 、 位 置 隐私 保护 以 及 针对 特定 问题 的 隐私 信息 保护 。 


1. 个 人 设备 的 隐私 信息 保护 


个 人 设备 中 的 隐私 信息 保护 主要 是 指 个 人 计算 机 、 手 机 等 设备 上 的 隐私 信息 保护 。 其 原因 在 于 用 户 没有 对 个 人 电子 设备 上 的 
数据 信息 采取 保护 措施 。 目 前 商家 通过 各 种 方式 吸引 用 户 将 其 软件 安装 在 个 人 计算 机 或 手机 设备 上 ， 这 些 软件 往往 有 许多 用 户 不 
知道 的 功能 ， 会 记录 下 用 户 的 许多 操作 信息 ， 比 如 个 人 浏览 的 网 页 、 感 兴趣 的 网 站 、 个 人 照片 、 个 人 聊天 记录 等 。 大 部 分 用 户 都 
没有 这 方面 的 安全 意识 ， 也 没有 采取 任何 的 防范 措施 ， 这 样 当 由 于 种 种 原因 (比如 设备 维修 、 设 备 丢 失 或 是 设备 被 恶意 非法 访 
问 ) 被 其 他 人 获取 到 个 人 设备 的 访问 权限 的 时 候 ， 就 会 造成 个 人 隐私 信息 的 泄露 。 另 外 一 个 原因 是 因为 目前 并 没有 简单 实用 的 个 
人 信息 加 密 策略 ， 人 们 如 果 手 工 对 个 人 数据 有 选择 地 进行 加 密 ， 则 势必 会 增加 许多 其 他 方面 的 成 本 ， 比 如 ， 需 要 用 户 决 定 并 记 住 
对 哪些 信息 需要 加 密 ， 并 手工 执行 加 密 操作 ， 这 样 会 大 大 降低 用 户 处 理 个 人 信息 的 效率 ， 导 致 用 户 体验 不 好 ， 还 会 导致 信息 查询 
代价 的 提高 。 所 有 这 些 额外 的 成 本 使 得 人 们 宁肯 冒 着 隐私 信息 泄露 的 风险 ， 也 不 愿意 手工 进行 个 人 数据 加 密 。 





对 于 个 人 设备 上 的 隐私 数据 信息 ， 需 要 采用 一 种 轻 量 级 的 保护 策略 。 这 种 保护 策略 应 当 在 保证 用 户 隐私 信息 的 安全 性 和 增加 
用 户 管 理 成 本 方面 找到 一 个 平衡 点 ， 尽 可 能 采用 一 些 自动 化 的 方式 为 用 户 提供 一 个 适当 的 隐私 保护 策略 。 其 应 能 自动 识别 涉及 个 
人 隐私 的 敏感 词汇 ， 且 自动 识别 带 有 隐私 性 的 个 人 数据 信息 ， 并 对 这 些 个 人 信息 进行 加 密 ， 所 使 用 的 加 密 方 法 应 尽 可 能 少 地 影响 
加 密 后 的 个 人 信息 的 查询 。 可 以 建立 个 人 敏感 信息 表 ， 从 而 对 于 个 人 信息 文件 中 的 所 有 敏感 信息 进行 加 密 。 这 样 当 进行 个 人 信息 
侈 索 时 ， 针 对 用 户 输入 的 查询 关键 字 ， 首 先 查询 其 是 否 为 敏感 信息 ， 是 的 话 则 基于 加 密 算 法 将 其 转换 为 加 密 的 字符 串 ， 然 后 基于 
加 密 的 字符 串 进行 检索 ; 如 果 不 是 的 话 ， 则 按 正 常 的 词汇 进行 检索 。 


2. 位 置 隐私 保护 


随 着 传感器 和 无 线 通信 技术 的 发 展 ， 随 时 随地 获得 个 人 精确 位 置 成 为 可 能 ， 因 此 基于 位 置 的 服务 (Location Based 
Service，LBS) 应 运 而 生 。 简 单 来 讲 ， 基 于 位 置 的 服务 本 质 上 是 一 种 服务 ， 这 种 服务 与 用 户 提出 请 求 的 位 置 有 关 。 比 如 ， 基 于 位 
置 的 紧急 救援 服务 (如 查询 “ 离 我 最 近 的 医院 ”等 ) 、 基 于 位 置 的 信息 娱乐 服务 (如 查询 “距离 我 米内 最 近 的 饭店 / 电影 
院 ” 等 ) 和 基于 位 置 的 广告 服务 (如 “向 所 有 在 我 咖啡 店 10 米 范围 内 的 客人 发 送 优惠 券 ” 等 ) 等 。 但 是 基于 位 置 服务 的 普及 也 
带 来 了 潜在 的 隐私 泄露 问题 [1。 先 看 一 个 基于 位 置 服务 的 例子 : 张 先生 利用 自己 带 有 GPS 定 位 功能 的 手机 提出 “寻找 距离 我 现在 
所 在 位 置 最 近 的 中 国 银行 ”， 此 查询 被 提交 给 服务 提供 商 ， 由 服务 提供 商 通 过 查询 数据 库 返 回 给 用 户 查 询 结果 。 基 于 位 置 服务 的 
推广 不 可 避免 地 带 来 了 基于 位 置 的 隐私 保护 问题 ， 其 可 能 会 将 诸如 “ 某 个 人 在 医院 ”或 “ 某 个 人 在 银行 ”这 样 的 隐私 信息 泄露 。 


关于 位 置 隐私 保护 的 问题 也 一 直 是 相关 领域 学 者 研究 的 焦点 ， 有 许多 研究 工作 。 其 中 被 广泛 接受 的 模型 之 一 是 位 置 K 匿 名 ， 
基于 这 种 模型 ， 位 置 发 送 装置 发 送 给 服务 器 的 主体 位 置信 息 并 不 是 该 用 户 的 确切 位 置信 息 ， 而 是 一 块 区 域 ， 在 这 个 区 域 中 至 少 包 
含 K 个 用 户 ， 这 样 攻击 者 只 能 够 得 到 位 置 服务 所 要 求 的 一 块 区 域 ， 而 不 是 用 户 的 确切 位 置 。 由 于 在 包含 多 个 用 户 的 匿名 区 域 中 确 
定 一 个 用 户 的 可 能 性 不 大 ， 从 而 使 得 用 户 位 置 不 被 泄露 。 但 同时 该 方法 也 面临 以 下 问题 : 一 是 如 何 找到 这 个 K 匿 名 区 域 ; 二 是 即 
使 能 找到 这 样 的 区 域 ， 有 时 这 个 区 域 会 很 大 ， 这 样 导致 服务 质量 降低 。 








针对 基于 位 置 的 个 人 数据 查询 来 说 ， 用 户 一 般 对 于 自己 所 处 的 位 置 及 其 所 在 的 区 域 是 知晓 的 ， 因 此 可 以 提交 一 个 区 域 进行 查 
询 ， 然 后 基于 返回 的 结果 自行 找到 查找 的 位 置 。 比 如 ， 用 户 如 果 希 望 查询 自己 所 在 位 置 最 近 的 中 国 银行 ， 同 时 也 知道 自己 所 处 的 
位 置 在 什么 路 或 者 什么 区 ， 如 在 北京 海淀 区 ， 则 可 以 提交 查询 “北京 海淀 区 中 国 银行 ”， 服 务 商会 返回 北京 海淀 区 的 诸多 中 国 银 
行 网 点 ， 然 后 用 户 根据 返回 的 结果 及 其 自身 地 址 信息 确定 距离 自己 位 置 最 近 的 中 国 银行 。 


3. 社 交 网 络 中 的 隐私 保护 


社交 网 络 是 人 类 在 互联 网 上 传播 信息 、 进 行 社会 交流 活动 的 平台 和 载体 。 随 着 互联 网 的 不 断 扩展 和 信息 技术 的 飞速 进步 ， 社 
交 网 络 已 成 为 人 们 进行 交流 沟通 的 重要 方式 ， 通 过 社交 了 网络， 人 们 可 以 与 家 人 和 朋友 保持 联络 ， 可 以 和 阳 生 人 共同 进行 游戏 娱 
乐 ， 可 以 通过 扩展 社交 轿子 结识 素 未 谋面 但 志同道合 的 朋友 。 因 此 ， 社 交 网 络 不 仅 是 一 种 新 潮 的 商业 模式 ， 更 是 一 种 推动 现实 生 
活 和 虚拟 空间 融合 的 重要 力量 。 


然而 ， 相 关 安 全 技术 、 法 规 政策 及 用 户 安全 意识 的 沾 后 ， 使 得 社交 网 络 的 安全 隐私 问题 突显 ， 引 发 了 人 们 的 高 度 天 注 。 近 年 
来 ， 由 于 个 人 隐私 及 敏感 数据 泄露 而 造成 的 各 种 热点 事件 屡 见 于 各 种 媒体 。 由 于 社交 网 络 最 初 的 目的 是 提供 给 人 们 一 个 在 网 络 上 
真实 的 交流 平台 ， 所 以 多 数 网 站 要 求 用 户 使 用 真实 的 个 人 资料 进行 注册 ， 并 在 网 站 的 个 人 主页 上 提供 了 包括 联系 方式 、 生 活动 态 
甚至 信用 卡 账 号 等 在 内 的 大 量 隐 私 数据 。 由 于 社交 网 络 系统 的 技术 缺陷 以 及 用 户 的 粗心 大 意 ， 这 些 数据 极 易 被 别有用心 的 人 或 组 
织 掌 握 并 利用 。 因 此 未 来 社交 网 络 中 的 隐私 信息 保护 将 是 一 个 非常 重要 的 问题 。 


4. 网 络 搜索 带 来 的 隐私 保护 


随 着 信息 量 的 急剧 上 升 ， 互 联网 已 经 成 为 最 大 的 信息 共享 空间 ， 越 来 越 多 的 与 个 人 相关 的 信息 在 互联 网 上 发 表 。 例 如 ， 企 业 
网 站 中 员工 的 身份 数据 ， 学 生 在 学 校 数 据 库 中 的 档案 信息 (包括 成 绩 、 专 业 、 爱 好 等 ) 等 。 随 着 Web 2.0 的 茵 勃发 展 ， 网 站 不 再 
是 唯一 的 信息 发 布 者 ， 用 户 被 允许 在 互联 网 上 发 表 文 章 和 意见 。 许 多 网 络 用 户 倾向 于 把 一 些 个 人 信息 ， 包 括 隐 私 敏 感 信息 ， 发 布 
在 互联 网 上 来 寻求 帮助 并 交流 想法 。 昌 然 一 般 情 况 下 个 人 信息 会 发 布 在 不 同 的 网 页 上 ， 然 而 ， 现 在 的 互联 网 已 经 被 搜索 引擎 高 度 
索引 ， 将 特定 人 物 的 重要 信息 通过 搜索 引擎 收集 起 来 是 可 以 实现 的 。 


下 面 看 一 个 具体 的 例子 。 如 图 8-2 所 示 [ 包 ， 爱 丽 丝 的 个 人 信息 被 发 布 在 了 互联 网 的 不 同 网 页 上 ， 包 括 名 字 、 电 子 邮箱 、 地 址 
等 。 每 一 个 网 页 包含 几 个 数据 项 ， 网 页 a 可 以 被 视 为 来 自爱 丽 丝 公 司 网 站 的 关于 其 身份 的 网 页 ， 网 页 b 则 是 来 自爱 丽 丝 寻求 过 帮 
助 的 糖尿 病 论坛 的 网 页 。 这 两 个 网 页 都 已 被 搜索 引擎 抓 取 和 索引 ， 由 于 通过 邮箱 可 以 唯一 地 确定 所 有 者 ， 这 两 个 网 页 就 可 以 通过 
邮箱 信息 联系 起 来 。 


下 面 看 一 下 攻击 者 如 何 获取 爱丽 丝 的 隐私 信息 。 假 设 攻击 者 知道 爱丽 丝 的 邮箱 “Alice@gmailcom”， 其 可 以 在 搜索 引擎 
通过 输入 “Alice@gmail.com” 获 得 返回 结果 ， 在 返回 的 结果 中 就 会 出 现 如 图 8-2 所 示 的 两 个 网 页 一 一 a 和 b， 通 过 分 析 这 些 网 
页 攻击 者 就 可 以 知晓 爱丽 丝 和 糖尿 病 有 关 这 一 隐私 的 个 人 信息 。 这 样 ， 利 用 爱丽 丝 公 开 的 个 人 信息 如 邮箱 ， 攻 击 者 可 以 一 步 步 发 
现 爱丽 丝 更 多 的 隐私 信息 。 
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图 8-2 一 个 关于 网 络 搜索 带 来 隐私 问题 的 示例 


因此 ， 如 何 做 到 既 能 让 人 们 通过 搜索 引擎 快 速 地 找到 自己 需要 的 信息 ， 又 能 够 防止 人 们 通过 搜索 引擎 获得 个 人 隐私 信息 ， 是 


需要 研究 的 重要 问题 ， 也 有 一 些 相关 的 研究 工作 ， 如 中 国人 民 大 学 WAMDM 实 验 室 的 王 仲 远 等 提出 了 一 种 应 对 策略 : Anti- 


indexBl。 目 前 来 看 互联 网 隐私 信息 保护 还 是 一 个 需要 进一步 研究 的 问题 ， 其 不 仅 涉及 计算 机 技术 ， 也 会 涉及 法 律 等 其 他 学 科 。 


[1 潘 晓 , 肖 珍 , 备 小 峰 . 位 置 隐私 研究 综述 由 .计算 机 科学 与 探索 ,2007,1(03). 


Ai Jing，Xiaofeng Meng, Zhongyuan Wang.Anti-index: Against Privacy Mining Via Search Engines [J .The Technical Report of 
WAMDM Lab, 2009. 


Ai Jing, Xiaofeng Meng, Zhongyuan Wang.Anti-index: Against Privacy Mining Via Search Engines [J .The Technical Report of 
WAMDM Lab, 2009. 


8.4 数据 融合 


通过 众多 技术 和 工具 收集 到 的 个 人 数据 集合 中 ， 不 同 的 数据 记录 也 可 能 对 应 现实 世界 中 的 同一 个 实体 ， 比 如 在 个 人 数据 集合 
中 有 两 个 数据 实体 ， 一 个 是 “NDBC” ， 另 一 个 是 “中 国 数据 库 年 会 ” 


， 而 实际 上 它们 对 应 的 是 现实 世界 中 的 同一 个 实体 。 数 据 
融合 即 识别 对 应 现实 世界 同一 实体 的 数据 记录 及 其 属性 并 进行 融合 


， 以 消除 实体 或 属性 描述 上 的 冲突 。 


8.4.1 ”数据 融合 系统 框架 


在 《大 数据 融合 研究 ; 问题 与 挑战 》[1 一 文中 ， 和 孟 小 峰 教授 针对 大 数据 融合 提出 了 如 图 8-3 所 示 的 大 数据 融合 框架 。 该 框架 
从 数据 融合 与 知识 融合 两 个 维度 对 数据 融合 的 步骤 和 技术 问题 进行 了 梳理 (4。 提 出 大 数据 价值 链 是 “离散 数据 一 集成 化 数据 一 知 
识 理解 一 普 适 机 理 凝 练 一 解释 客观 现象 一 回归 自然 ”这 样 一 个 阶梯 式 循 环 过 程 。 

从 图 8-3 可 以 看 出 ， 数 据 融合 包括 模式 /本 体 对 齐 、 实 体 识 别 、 冲 突 解决 、 数 据 溯 源 几 个 步骤 ; 知识 融合 包括 知识 的 抽象 与 建 


模 、 关 系 推演 、 深 度 知 识 发 现 、 普 适 机 理 的 剖析 与 归纳 。 每 个 步骤 有 各 自 需 要 解决 的 问题 。 知 识 融合 和 数据 融合 是 一 个 相互 启 
发 、 相 互 促进 、 逐 步 协调 融合 的 过 程 ， 两 者 受 一 些 共同 因 素 的 影响 ， 如 动态 演化 向 、 海 量 性 和 高 速 性 。 
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图 8-3 ”数据 融合 系统 框架 


个 人 数据 空间 也 具有 大 数据 的 特征 ， 因 此 这 些 观 点 同样 适用 于 个 人 数据 融合 。 同 时 个 人 数据 空间 也 具有 一 些 区 别 于 其 他 大 数 
据 的 特性 ， 如 用 户 数量 、 数 据 来 源 、 数 据 模式 等 ， 从 而 使 得 图 8-3 所 示 的 框架 中 各 技术 问题 的 解决 需要 考虑 个 人 数据 空间 的 特 
征 。 目 前 在 个 人 数据 融合 与 知识 融合 方面 尚未 发 现 系统 化 的 研究 工作 ， 未 来 会 引起 更 多 的 关注 。 


D] 孟 小 活 ， 杜 志 娟 .大 数据 融合 研究 [J] .计算 机 研究 与 发 展 ，2016，53 (2) : 231-246. 
四 孟 小 峰 ， 杜 志 娟 .大 数据 融合 研究 [J] .计算 机 研究 与 发 展 ，2016，53 (2) : 231-246. 


8.4.2 ”个 人 数据 融合 实例 


本 节 以 一 个 数据 管理 领域 学 者 的 数据 空间 为 例 说 明 个 人 数据 融合 相关 问题 与 技术 。 


示例 描述 : A 教授 在 数据 管理 领域 从 事 了 多 年 的 教学 和 研究 工作 ， 多 年 来 积累 了 大 量 的 个 人 数据 信息 ， 这 些 数据 来 自 众多 不 
同 的 数据 源 : @ 其 参与 的 各 类 项 目 分 属于 不 同 的 管理 部 门 ， 需 要 通过 各 管理 部 门 提供 的 网 站 进行 访问 ; @ 其 有 多 个 邮箱 及 大 量 的 
邮件 信息 ， 这 些 邮件 内 容 涉及 科研 、 教 学 、 与 国外 同行 的 交流 、 指 导 学 生 、 参 加 各 类 学 术 活动 等 各 个 方面 ，@ 其 收集 的 相关 研究 
领域 的 学 术 论 文 有 几 百 篇 ， 这 些 论文 有 PDF、DOC 等 多 种 格式 ， 有 的 论文 存储 在 个 人 计算 机 中 ， 有 的 存储 在 互联 网 空间 中 ; @ 
其 个 人 的 主页 ， 包 括 其 研究 团队 信息 、 发 表 的 论文 信息 (论文 题目 、 作 者 、 发 表 的 期 刊 /会 议 及 检索 信息 等 ) 、 参 加 学 术 活 动 信 


息 等 ， 这 些 信息 都 以 网 页 的 形式 存在 ; 其 手机 通讯 录 上 有 近 干 人 的 联系 方式 等 信息 ， 并 安装 了 一 些 管理 个 人 信息 的 手机 APP 软 
件 ; @ 其 在 一 些 电 子 商 务 网 站 保存 有 个 人 的 网 上 购买 记录 ; @ 在 社保 、 学 校 相关 管理 部 门 的 网 站 有 自己 的 登录 账号 和 相关 信息 ; 
@ 其 在 个 人 计算 机 、 手 机 上 保存 有 大 量 的 个 人 、 家 庭 成 员 的 工作 、 和 生活、 旅游 的 照片 ，@ 个 人 计算 机 上 保存 有 收集 的 自己 喜欢 的 
歌曲 、 小 说 、 电 影 等 各 种 类 型 的 文件 等 。 


问题 归纳 : 以 上 只 列 出 了 A 教授 个 人 数据 空间 的 部 分 数据 信息 。 可 以 看 出 个 人 数据 具有 如 下 特性 : @ 具 有 普 适 大 数据 的 海 
量 、 异 构 、 分 散 等 一 些 共同 的 特征 ; @ 跨 越 不 同 媒体 和 语言 的 特征 明显 。 个 人 数据 涉及 众多 不 同 的 媒体 和 数据 类 型 ， 与 一 个 实体 
相关 的 数据 也 会 跨越 不 同 的 媒体 和 语言 。 比 如 “参加 中 国 数 据 库 年 会 ”是 A 学 者 2015 年 的 一 项 学 术 活动 ， 与 之 相关 的 数据 包括 相 
关 的 邮件 、 参 加 会 议 的 日 程 安排 、 会 议 期 间 拍摄 的 照片 、 认 识 的 新 的 同行 的 个 人 信息 等 。 从 信息 描述 的 语言 来 看 ， 这 些 信息 的 内 
容 有 的 是 英文 、 有 的 是 中 文 ， 从 信息 格式 的 类 型 来 看 ， 有 的 是 图 片 、 有 的 是 文档 或 邮件 。 要 识别 这 些 数 据 实体 及 其 关系 ， 就 需要 
跨越 多 个 数据 源 、 多 种 媒体 、 多 种 语言 的 数据 融合 技术 。 


问题 挑战 : 个 人 数据 融合 面临 诸多 挑战 : @@ 数 据 融合 中 的 冲突 解决 策略 。 在 不 同 的 数据 源 中 ， 关 于 某 个 实体 的 描述 可 能 会 不 
一 致 ， 这 种 不 一 致 中 有 实体 数据 模式 的 不 一 致 ， 也 包括 实体 属性 的 不 一 致 。 比 如 ， 在 用 户 的 邮箱 中 有 某 个 朋友 的 联系 方式 和 邮 
箱 ， 在 个 人 手机 通讯 录 中 也 有 该 朋 友 的 数据 记录 ， 两 个 数据 源 中 的 数据 模式 即 字 段 数目 、 字 段 名 称 、 字 段 类 型 及 同一 属性 的 取 值 
都 有 可 能 是 不 一 样 的。 数据 冲突 问题 在 各 种 数据 融合 的 场景 下 大 都 会 存在 ， 但 在 个 人 数据 空间 中 可 能 更 加 突出 。 由 于 个 体 用 户 的 

异性 和 操作 的 随意 性 ， 个 人 数据 信息 的 结构 化 、 语 义 规范 化 会 更 弱 。 用 户 往往 很 随意 地 将 有 用 的 信息 以 自己 习惯 的 方式 和 命名 
习惯 进行 记录 ， 这 种 差异 性 和 随意 性 为 个 人 数据 融合 中 的 冲突 解决 提出 了 挑战 。@ 跨 领域 特性 。 个 人 数据 实际 上 是 个 人 行为 的 反 
映 ， 包 括 个 人 的 认 知 行为 、 教 育 行为 、 交 互 行为 、 学 习 行为 等 ， 只 有 与 相关 领域 的 知识 联系 在 一 起 ， 才 能 更 为 清晰 地 认识 个 人 数 
据 、 发 现 数据 背后 的 知识 与 规律 ， 因 此 跨 领域 特性 也 给 个 人 数据 融合 带 来 了 挑战 。 


8.4.3 ” 跨 语言 数据 融合 


由 于 每 个 人 从 事 的 职业 不 同 ， 与 主体 相关 的 数据 内 容 可 能 跨越 不 同 的 语言 。 对 于 一 个 中 国 的 学 者 来 说 ， 其 个 人 数据 空间 包括 
个 人 的 中 文 主页 、 英 文 主页 ， 个 人 邮件 也 会 包括 中 文 邮件 、 英 文 邮件 ， 如 果 其 研究 兴趣 包括 个 人 信息 管理 ， 那 么 各 学 术 会 议 或 期 
刊 发 表 的 天 于 个 人 信息 管理 相关 的 学 术 论 文 都 可 能 成 为 其 相关 的 数据 项 。 再 比如 一 个 公司 或 者 机 构 的 外 事 工 作 人 员 ， 其 负责 本 公 
司 的 国际 销售 、 采 购 、 管 理 、 教 育 等 业务 ， 这 样 就 会 与 多 个 国家 的 相关 部 门 发 生 业务 关系 ， 从 而 会 有 涉及 不 同 语言 的 来 往 信函 、 
电子 邮件 等 。 这 样 就 存在 不 同 语言 信息 的 融合 问题 。 目 前 相关 的 研究 工作 并 不 多 ， 其 挑战 性 在 于 : 语言 的 多 样 性 使 得 实现 各 种 语 
言 的 数据 融合 变 得 困难 ; 建立 跨越 各 种 语言 的 个 人 数据 实体 信息 库 会 大 大 增加 个 人 数据 量 ， 从 而 增加 数据 索引 和 检索 的 难度 。 
此 在 跨 语言 的 数据 融合 方面 还 有 许多 工作 要 做 。 


8.4.4” 跨 媒体 数据 融合 


个 人 数据 往往 来 源 于 多 种 媒体 ， 包 括 传统 的 关系 数据 库 、 文 本 文档 、 图 片 文件 、 视 频 文件 等 ， 因 此 数据 融合 也 需要 跨越 多 种 
媒体 形式 。 比 如 ， 任 务 或 事件 是 组 织 和 管理 个 人 数据 的 重要 依据 ， 与 某 个 事件 相关 的 个 人 数据 往往 涉及 多 种 媒体 。 假 设 对 于 某 个 
学 者 ， 参 加 NDBC 2015 是 其 一 项 重要 的 学 术 活动 ， 在 此 次 会 议 上 ， 其 需要 参加 学 术 研 讨 会 、 作 学 术 报 告 、 听 特约 报告 等 。 期 间 
会 产生 许多 与 其 相关 的 个 人 数据 信息 ; 比如 获得 的 相关 报告 的 资料 文件 、 拍 摄 的 照片 、 收 发 的 与 此 次 活动 相关 的 邮件 等 ， 这 些 文 
件 格 式 包括 DOC、PPT、PDF、JPG、HEML 等 。 这 就 存在 一 个 跨 媒体 数据 融合 的 问题 。 在 个 人 数据 管理 领域 ， 由 于 其 自身 的 一 
些 特 性 ， 需 要 研究 相关 的 数据 融合 方法 。 


1. 基 于 信息 标注 与 文本 分 析 的 方法 


这 种 方法 基于 多 种 媒体 的 文本 标注 信息 进行 数据 融合 。 其 前 提 是 每 个 实体 都 要 先 用 文本 进行 标注 ， 比 如 对 于 一 张 照片 ， 需 要 
采用 人 工 或 图 像 识 别 的 方法 识别 图 片 的 内 容 ， 并 进行 标注 。 比 如 识别 一 个 图 像 中 是 否 含有 人 物 、 是 否 含有 特定 的 字符 或 标识 、 是 
否 是 某 个 人 、 建 筑 或 物品 等 。 图 像 内 容 识 别 本 身 就 是 一 个 非常 重要 的 研究 领域 ， 也 是 一 个 具有 很 大 挑战 性 的 题目 ， 目 前 有 很 多 的 
研究 工作 。 这 些 工作 或 成 果 都 可 以 用 于 个 人 多 媒体 数据 的 识别 与 标注 ， 基 于 这 些 标注 信息 就 可 利用 基于 文本 内 容 的 方法 实现 数据 


融合 。 
2. 基 于 位 置 的 数据 融合 方法 


位 置信 息 从 某 个 角度 来 讲 是 识别 不 同 媒体 语 义 信息 的 一 种 重要 线索 。 对 于 一 个 人 来 说 ， 特 定 的 位 置 往往 与 某 个 人 的 行为 、 任 
务 或 主题 相关 。 比 如 对 于 一 个 学 者 来 说 ， 其 在 某 个 教室 所 阅读 或 生成 的 数据 在 很 大 概率 上 与 她 /他 的 教学 活动 是 有 关 的 ; 此 外 ， 
假设 这 是 一 位 从 事 数据 库 研 究 的 学 者 ， 其 于 2015 年 9 月 11 日 至 13 日 在 成 都 产生 或 访问 过 的 数据 可 能 与 数据 库 年 会 NDBC 2015 有 
关 ， 因 为 可 以 从 其 他 的 数据 源 获知 该 会 议 正 好 于 这 个 时 间 段 在 成 都 举行 。 基 于 位 置 的 个 人 数据 融合 是 一 个 新 的 思路 和 方法 ， 目 前 
相关 研究 并 不 多 ， 与 基于 文本 主题 的 方法 一 起 可 以 提高 数据 融合 的 质量 和 效率 。 此 外 ， 在 某 个 位 置 访问 或 产生 的 信息 只 是 在 很 大 
概率 上 与 某 个 主题 和 时 间 有 关 ， 并 不 能 肯定 与 之 一 定 相关 。 


8.5 ”新 技术 友 展 


随 着 个 人 数据 信息 的 积累 ， 人 们 不 禁 要 问 ， 积 累 了 如 此 海量 的 个 人 信息 ， 其 价值 到 底 如 何 ， 是 否 真 的 能 使 个 人 的 工作 变 得 更 
有 效率 或 者 生活 质量 更 高 。 这 就 是 如 何 将 海量 的 个 人 数据 信息 转化 为 用 户 可 以 使 用 或 享受 的 数据 服务 的 问题 ， 这 也 是 未 来 个 人 数 
据 管理 领域 始终 需要 考虑 或 研究 的 问题 。 本 节 从 数据 访问 技术 、 评 价 标准 及 方法 、 个 人 数据 计算 几 个 方面 进行 探讨 与 前 述 。 


8.5.1 着 访问 技术 


个 人 数据 管理 的 一 个 重要 目的 是 提高 个 人 数据 访问 的 效率 。 目 前 主要 的 工作 还 是 集中 在 提高 个 人 数据 搜索 效率 方面 ， 包 括 查 
询 接口 、 优 化 算法 、 结 果 排 序 等 。 随 着 相关 学 科 的 发 展 ， 人 们 需要 更 加 便捷 、 友 好 、 高 效 的 数据 访问 方法 。 


1. 个 人 数据 可 视 化 


目前 数据 可 视 化 成 为 一 个 重要 的 研究 方向 ， 将 可 视 化 技术 用 于 个 人 数据 空间 管理 可 以 大 大 提高 数据 操作 的 效率 ， 使 得 用 户 有 
更 好 的 体验 。 具 体 包括 : @ 操 作 界 面 的 可 视 化 。 用 户 可 以 通过 日 历 、 地 图 、 任 务 树 、 分 类 空间 快速 地 设 定 查询 条 件 ， 搜 索 结果 也 
可 以 通过 图 形 方式 展示 。 基 于 位 置 的 可 视 化 。 随 着 移动 互联 网 的 普及 ， 个 人 数据 空间 的 很 多 数据 都 包含 位 置信 息 ， 基 于 个 人 数 
据 与 位 置 相关 的 属性 可 以 将 个 人 信息 在 地 图 上 进行 展示 。 比 如 个 人 照片 信息 往往 与 位 置信 息 相关 ， 当 用 户 搜 索 某 张 或 某 些 照片 的 
时 候 ， 可 以 通过 地 图 的 方式 显示 与 个 人 照片 相关 的 位 置 ， 从 而 方便 用 户 进行 选择 ,或 者 以 某 张 照 片 代替 位 置信 息 ， 从 而 方便 用 户 
查询 。 由 于 个 人 数据 的 多 样 性 ， 能 够 可 视 化 的 数据 非常 多 ， 在 这 方面 还 有 许多 的 工作 可 以 做 。 


2. 基 于 语义 的 数据 查询 


用 户 更 倾向 于 以 一 种 自然 、 随 意 的 方式 提交 查询 条 件 ， 比 如 用 户 希 望 查 找 2015 年 5 月 份 在 张家界 照 的 照片 ， 用 户 可 能 希望 输 
入 “2015 张 家 界 照片 ”。 如 何 将 这 种 自然 的 语言 转化 为 结构 化 查询 条 件 是 需要 研究 解决 的 问题 。 其 实 这 是 一 个 查询 转换 的 问 
题 ， 即 将 用 户 输入 的 自然 语言 转化 为 一 个 基于 语义 的 查询 条 件 。 以 用 户 输 入 “2015 张 家 界 照 片 ”为 例 ， 用 户 希 望 的 是 查询 “ 拍 
摄 时 间 为 2015、 拍 摄 地 点 为 张家界 、 文 件 类 型 为 JPG 或 BMP 的 文件 ”。 实 现 这 样 的 转化 实际 上 需要 解决 许多 问题 。 比 如 为 什 
么 “2015” 对 应 的 是 拍摄 时 间 而 不 是 其 他 属性 或 其 他 时 间 属 性 等 ， 这 些 在 人 们 看 来 很 自然 的 问题 对 于 计算 机 来 说 并 不 容易 解 
决 。 基 于 自然 语言 查询 是 一 个 挑战 性 题目 ， 许 多 基础 问题 尚未 解决 。 不 过 ， 由 于 个 人 数据 空间 查询 的 特殊 性 ， 可 以 基于 此 场景 对 


自然 语言 查询 问题 进行 一 些 研究 。 
3. 基 于 上 下 文 的 查询 方法 


用 户 在 搜索 个 人 信息 的 时 候 往往 会 面临 如 下 矛盾 : 一 方面 用 户 希 望 搜 索 时 输入 的 文字 信息 越 少 越 好 ， 另 一 方面 希望 返回 的 结 
果 是 最 精确 的 。 实 际 上 这 是 一 个 矛盾 ， 因 此 需要 基于 用 户 的 查询 环境 和 上 下 文 信息 自动 对 用 户 输入 的 查询 条 件 进 行 补 充 或 重 写 。 
那么 ， 哪 些 上 下 文 因素 与 查询 相关 ? 如 何 描述 用 户 的 上 下 文 环境 ? 这 都 是 需要 研究 的 问题 。 目 前 所 关注 的 上 下 文 环境 信息 主要 包 
括 : 位 置信 息 、 时 间 信 息 、 用 户 个 性 化 信息 等 。 基 于 上 下 文 搜索 的 关键 是 如 何 界定 是 否 需要 借鉴 上 下 文 信息 、 什 么 时 候 需 要 考虑 
上 下 文 信息 。 比 如 ， 用 户 输入 “天 气 信息 ”的 时 候 ， 应 该 需要 考虑 上 下 文 信息 ， 即 在 很 大 程度 上 用 户 希望 查询 的 是 目前 所 在 地 点 
当前 或 近期 的 天 气 信 息 。 假 如 用 户 输入 的 是 “6 月 份 天 津 的 天 气 信息 ”， 则 就 不 应 该 考虑 当前 的 时 间 和 地 点 。 由 于 主体 的 多 样 性 
以 及 上 下 文 环境 的 多 样 性 ， 基 于 上 下 文 的 个 人 数据 空间 查询 也 有 许多 问题 需要 进一步 研究 。 


8.5.2 评价 技术 


主体 的 参与 使 个 人 数据 管理 技术 评价 成 为 挑战 性 问题 。 传 统 的 评价 方法 往往 只 是 关注 个 人 数据 查询 方法 的 效率 ， 这 种 方式 在 
个 人 数据 管理 中 可 以 使 用 ， 但 有 一 定局 限 性 。 


1 .数据 价值 评价 


大 规模 的 个 人 数据 中 哪些 数据 更 有 价值 ， 该 问题 对 于 个 人 数据 的 存储 及 安全 策略 具有 重要 意义 。 如 果 这 个 问题 得 以 解决 ， 在 
数据 备份 、 同 步 等 策略 中 可 以 重点 关注 更 为 重要 的 数据 ， 从 而 提高 数据 操作 效率 。 


有 人 将 个 人 数据 分 为 个 人 生成 的 数据 和 个 人 收集 的 数据 。 前 者 主要 是 指 自己 编写 的 文档 、 笔 记 、 各 种 个 人 创作 的 文件 等 ， 这 
类 数据 的 特点 是 较为 珍贵 ， 一 旦 丢失 很 难 找 回 ， 且 重新 生成 的 代价 很 高 或 很 难 再 次 生成 同样 的 数据 ; 而 个 人 收集 的 数据 ， 主 要 是 
旧 经 过 主体 阅读 、 分 类 、 整 理 的 数据 ， 这 类 数据 的 特点 是 主体 对 数据 进行 了 二 次 处 理 ， 原 始 数据 往往 能 在 最 初 的 位 置 或 互联 网 上 
获得 ， 其 附加 值 在 于 经 过 个 人 整理 所 做 的 分 类 、 标 注 等 。 区 分 个 人 生成 数据 和 收集 数据 的 主要 目的 在 于 两 者 的 重要 性 不 同 ， 需 要 
区 别 对 待 。 实 际 上 ， 即 使 针对 两 个 同 为 个 人 生成 或 收集 的 数据 ， 也 存在 用 户 投 入 时 间 和 精力 多 少 的 问题 。 比 如 用 户 写 的 博士 论文 
和 一 个 会 议 通 知 ， 很 显然 其 重要 性 不 可 同日 而 语 。 


实际 上 ， 需 要 综合 的 个 人 数据 价值 评价 模型 。 个 人 数据 的 价值 取决 于 主体 产生 或 得 到 该 数据 付出 的 代价 ， 即 成 本 。 此 外 还 要 
依赖 该 数据 的 丢失 对 于 主体 造成 的 损失 ， 这 种 损失 可 能 是 经 济 上 的 ， 也 可 能 是 精神 上 的 。 比 如 ， 一 个 人 年 轻 时 候 的 一 张 照 片 ， 虽 
然 长 时 间 没有 访问 ， 但 其 对 于 自己 可 能 具有 非常 重要 的 价值 。 最 为 粗略 的 一 种 计算 方法 ， 是 通过 客户 对 文件 的 修改 次 数 或 昧 计 访 
问 时 间 、 修 改 时 间 来 近似 代表 主体 付出 的 多 少 ， 这 只 是 一 种 基于 时 间 成 本 的 评价 方法 ， 要 想 更 加 精确 ， 仍 然 需要 对 个 人 数据 价值 
计算 模型 与 方法 进行 深入 研究 ， 也 需要 结合 人 的 心理 学 、 行 为 学 方面 的 一 些 知 识 。 


2. 方 法 评价 


目前 对 于 个 人 数据 管理 方法 或 系统 的 评价 ， 一 般 更 注重 一 些 通用 的 指标 。 比 如 用 查 准 率 和 查 全 率 衡 量 搜索 结果 的 优势 ， 用 
NCDG 等 方法 衡量 排序 的 效率 。 这 些 方 法 并 未 完整 地 体现 出 主体 付出 的 成 本 。 总 体 来 说 ， 个 人 数据 管理 方法 评价 应 考虑 以 下 指 
标 []。@ 效 率 。 一 个 好 的 个 人 数据 管理 系统 或 方法 应 当 使 用 户 在 某 段 时 间 内 集中 精力 完成 特定 的 任务 ， 而 不 仅仅 是 能 够 使 他 在 相 
同 的 时 间 内 完成 更 多 的 任务 。@ 其 应 当 能 够 使 用 户 在 短 时 间 内 聚焦 于 紧急 的 、 需 要 优先 考虑 的 任务 。@@ 应 当 使 工作 更 加 流畅 ， 即 
用 户 始终 处 于 工作 之 中 或 始终 聚焦 于 相对 重要 的 工作 。 当 用 户 不 得 不 为 将 来 的 行为 花费 时 间 进 行 分 类 归档 的 时 人 息 ， 应 当 人 允许 减 小 
工作 流量 。@ 个 人 数据 管理 系统 应 当 无 颖 地 集成 到 日 常 的 生活 和 工作 当中 ， 而 不 是 成 为 男 外 一 件 需要 分 心 的 事情 。@@ 使 用 是 一 个 
重要 的 指标 ， 对 一 个 工具 接受 并 将 其 与 生活 连 在 一 起 ， 应 当 是 一 个 工具 价值 的 标志 。@@ 好 的 方法 或 工具 可 以 看 作对 于 用 户 在 过 程 
或 行为 中 产生 了 积极 的 改变 。 由 于 工作 环境 和 行为 特点 的 复杂 性 ， 这 是 一 个 重要 的 评估 挑战 。@ 个 人 生产 效率 的 提高 可 能 是 一 个 
评估 标准 。@ 比 较 估 算 完成 一 项 任务 的 时 间 和 实际 完成 所 需要 的 时 间 ， 以 此 进行 评价 。 


以 上 仍 是 对 个 人 信息 管理 评价 技术 的 定性 描述 ， 如 何 将 其 形式 化 仍 需 进一步 研究 。2011 年 6 月 在 爱尔兰 都 柏林 召开 了 个 人 搜 
索 评价 技术 研讨 会 ， 针 对 数据 集 、 评 估 模 型 、 模 拟 搜 索 等 问题 进行 了 探讨 和 研究 ， 提 出 了 一 些 新 的 想法 和 评价 策略 ， 随 后 也 有 相 
关 工 作 发 表 ， 有 学 者 [< 分析 了 人 们 在 不 同情 况 下 查询 行为 的 特点 ， 从 提交 的 查询 字段 、 命 名 实体 等 方面 研究 了 用 户 提交 的 输入 信 
息 的 特点 ， 提 出 了 基于 模拟 查询 的 评估 方法 。 因 为 个 人 数据 管理 最 终 是 解决 用 户 的 问题 ， 使 用 户 愉快 、 高 效 地 工作 ， 主 体 的 差异 
性 和 不 可 避免 的 主观 性 使 得 评价 标准 的 确定 仍 是 一 个 挑战 性 问题 ， 此 外 ， 目 前 关于 评价 技术 的 研究 仍 局 限于 对 于 个 人 信息 搜索 方 
法 的 评价 ， 个 人 信息 管理 涉及 人 存储、 索引 、 隐 私 保 护 、 安 全 等 诸多 方面 ， 对 于 搜索 之 外 其 他 方面 的 技术 评价 仍 未 得 到 关注 。 


未 来 的 研究 工作 包括 : @@ 建 立 模拟 的 个 人 数据 信息 平台 ， 针 对 特定 的 人 群 ， 建 立 长 期 、 全 面 的 个 人 数据 集合 。@ 探 究 个 人 信 
息 管理 的 目的 和 本 质 ， 为 之 建立 更 加 科学 的 评价 体系 。@ 建 立 个 人 数据 管理 的 成 本 效益 模型 以 及 个 人 数据 管理 的 评价 体系 。 由 于 
主体 的 个 性 化 特征 ， 定 义 这 样 一 个 通用 的 科学 评价 体系 是 一 项 基础 的 且 具 有 很 大 挑战 性 的 工作 ， 还 需要 相关 领域 的 学 者 共同 做 出 
努力 。 


[1] Jones W,Btuce H.A.Repott on the NSF-Sponsored Workshop on Personal Information Management[R/OL].2005,Seattle, Washington. 
[2] Elsweiler D,Losada D,Toucedo JC,et al.Seeding Simulated Queties with User-study Data for Personal Seatch Evaluation[C].Proceeding of 


the 34th International ACM SIGIR Conference on Reseatch and Development in Information Retrieval(SIGIR 11),2011:24-38. 


8.5.3 个 人 数据 计算 


随 着 物 联 网 、 云 计算 、 移 动 互联 网 等 技术 的 发 展 ， 未 来 人 们 几乎 所 有 的 生活 、 生 命 轨迹 都 可 以 通过 数字 记录 下 来 ， 这 些 数据 
就 成 为 了 一 种 自然 的 存在 ， 其 为 研究 个 人 行为 、 心 理 、 成 长 过 程 等 提供 了 新 的 角度 和 方法 ， 使 得 可 以 基于 这 些 数 据 通过 计算 探究 
个 人 行为 规律 、 身 心 发 展 规律 、 心 理 变化 规律 、 教 育成 长 规律 等 客观 规律 ， 为 其 他 学 科 的 研究 提供 新 的 思路 和 方法 ， 未 来 人 们 需 
要 回答 的 问题 或 许 不 仅 是 “去 年 的 一 张 照片 在 哪里 ”， 而 是 “我 最 近 的 健康 情况 如 何 ” 为 什么 ) ”、 “具有 创新 意识 的 孩子 有 哪 
些 共同 的 行为 习惯 ” ”等 。 而 要 解决 这 些 问 题 ， 需 要 将 个 人 数据 管理 与 教育 学 、 心 理学 、 行 为 学 等 众多 其 他 学 科 进 行 交叉 研究 。 


个 人 数据 管理 
A = EE Ce 人 
下 人 信息 管理 村 术 发 展 





非 数 字 存 储 方式 ”数字 存储 技术 云 存 储 、 移 动 互联 网 、 物 联网 、 


手工 方式 为 主 互联 网 、 数 据 库 数据 空间 、 数 据 挖掘 、 答 能 计算 





图 8-4 个 人 数据 管理 发 展 趋势 
图 8-4 显 示 了 个 人 数据 管理 技术 的 发 展 过 程 及 趋势 (1， 如 图 所 示 ， 个 人 数据 管理 包括 以 下 阶段 : 
1. 个 人 信息 管理 阶段 
其 管理 的 数据 对 象 主要 是 书籍 、 记 录 纸 张 、 幻 灯 片 等 以 纸张 非 数字 存储 介质 为 载体 的 个 人 信息 ， 其 管理 方式 主要 以 手工 方式 
进行 分 类 和 存放 。 
2. 个 人 数据 管理 阶段 


该 阶段 个 人 数据 信息 主要 以 数据 的 形式 存储 在 磁盘 等 介质 中 ， 管 理 的 方式 主要 是 基于 数据 库 和 网 络 等 技术 ， 通 过 软件 系统 进 
行 管理 ， 目 前 仍 处 于 这 个 阶段 。 


3. 个 人 数据 计算 阶段 


在 这 一 阶段 ， 随 着 个 人 数据 管理 技术 和 移动 互联 网 、 物 联网 等 技术 的 发 展 ， 个 人 数据 将 积累 得 越 来 越 多 ， 这 些 数据 涉及 个 人 
成 长 、 生 活 、 工 作 、 健 康 的 方方面面 ， 将 会 成 为 真正 意义 上 的 大 数据 。 个 人 数据 计算 是 指 : 基于 个 人 数据 ， 通 过 与 其 他 学 科 领 域 
相 结合 ， 利 用 数据 挖 气 、 人 工 智能 等 技术 ， 发 现 个 人 成 长 、 教 育 、 健 康 等 诸多 方面 的 发 展 规律 ， 为 人 的 健康 发 展 提供 更 有 价值 的 
指导 。 未 来 随 着 个 人 数据 的 积累 和 与 其 他 学 科 的 结合 ， 个 人 数据 计算 将 成 为 一 个 新 的 研究 领域 ， 越 来 越 多 与 个 人 数据 管理 相关 的 
软件 或 系统 将 相继 开发 出 来 。 


[1] 李 玉 坤 ， 任 标 ， 赵 喜 菩 ， 等 .个 人 数据 管理 技术 研究 [J] .计算 机 科学 与 探索 ，2014 (11) : 1281-1295. 


8.5.4 从 个 人 数据 空间 到 群 组 数据 空间 


个 人 数据 空间 是 针对 个 人 大 规模 异 构 数据 管理 的 管理 技术 ， 其 面向 的 是 个 人 数据 管理 需求 。 随 着 社交 网 络 的 兴起 ， 人 们 通过 
各 种 社交 媒体 和 软件 建立 了 大 量 的 群 组 ， 这 些 群 组 成 员 具 有 相同 的 经 历 、 爱 好 或 其 他 共同 的 属性 ， 比 如 喜爱 旅游 和 钓鱼 的 人 会 组 


成 群 组 、 一 个 班 的 学 生 会 组 成 群 组 、 一 个 班 的 学 生 的 家 长 会 组 成 群 组 、 一 个 办 公 室 的 同事 会 组 成 群 组 、 一 个 实验 室 的 师 生 会 组 成 
群 组 等 。 群 组 日 益 成 为 制造 信息 、 传 播 信息 的 重要 途径 ， 关 于 群 组 信息 管理 也 日 益 引 起 关注 。 以 下 是 几 个 群 组 数据 管理 问题 的 示 
例 。 


示例 1: A 群 组 是 某 个 已 经 毕业 20 年 的 初中 同学 组 成 的 群 组 ， 这 些 群 组 成 员 有 共同 的 回忆 ， 某 个 同学 发 布 了 20 年 前 的 一 张 非 
常 珍 贵 的 照片 ， 成 员 A1 没 有 及 时 将 照片 保存 下 来 ， 当 他 希望 保存 的 时 候 ， 发 现 该 照片 已 经 因 过 期 而 不 能 下 载 了 。 如 果 想 得 到 该 
数据 信息 的 话 就 需要 费 一 些 周折 。 同 样 ， 其 他 同学 发 的 帖子 当中 ， 有 时 会 有 很 精彩 的 动画 、 视 频 、 图 片 、 文 章 等 ， 及 时 将 其 保存 
实际 上 也 是 一 件 看 似 简单 、 实 则 非常 耗 时 的 事情 。 这 就 有 一 个 群 组 数据 人 存储、 保存 和 查询 的 问题 。 


示例 2: 目前 基本 上 每 个 学 院 的 老师 都 会 有 一 个 微 信 群 组 。 不 同 角色 的 老师 在 其 中 分 享 信息 、 收 发 通知 等 。 由 于 人 员 很 多 ， 
发 信息 的 频率 也 很 快 ， 有 时 一 个 老师 并 不 能 来 得 及 看 每 一 条 消息 ， 这 样 有 的 时 候 就 可 能 错过 一 些 重要 的 消息 和 通知 。 有 的 时 候 虽 
然 及 时 看 到 了 通知 ， 也 会 面临 如 何 记忆 的 问题 ， 因 为 这 条 消息 很 快 被 新 的 消息 推出 我 们 的 视野 。 这 也 存在 一 个 信息 的 提取 、 保 
存 、 提 桓 等 方面 的 问题 。 


示例 3: 另外 一 个 重要 的 领域 是 企业 数据 空间 ， 这 可 以 看 作 一 个 更 为 特殊 的 群 组 数据 空间 。 一 个 企业 的 人 共同 组 成 一 个 群 
组 ， 企 业 中 的 用 户 分 别 扮演 着 不 同 的 角色 ， 人 存储 、 发 布 、 分 享 着 与 企业 相关 或 不 完全 相关 的 信息 。 一 个 企业 群 组 和 其 他 的 基于 兴 
趣 爱好 建立 的 群 组 有 所 不 同 ， 其 数据 安全 性 要 求 更 高 ， 有 些 企业 数据 不 允许 泄露 。 


可 以 看 出 ， 群 组 数据 空间 实际 上 是 面向 特定 主题 的 数据 空间 ， 也 是 未 来 重要 的 研究 方向 ， 目 前 广大 的 学 者 也 进行 了 有 益 的 探 
索 ， 比 如 中 国人 民 大 学 WAMDM 实 验 室 的 孟 小 峰 教授 的 研究 团队 研发 的 针对 学 者 的 数据 空间 系统 EasyScholar、 华 南 师范 大 学 汤 
庸 教授 团队 研发 的 学 者 网 、 微 软 开发 的 人 立方 系统 等 ， 都 可 以 看 作 针对 某 一 主题 建立 的 群 组 数据 空间 。 


目前 来 看 群 组 数据 空间 研究 问题 仍 主要 包括 数据 集成 、 人 存储 、 索 引 、 查 询 、 安 全 等 问题 ， 但 是 也 有 其 自身 的 科学 问题 。 本 质 
上 群 组 数据 空间 是 社会 关系 以 数据 形式 的 反映 ， 因 此 该 领域 研究 与 社会 学 、 行 为 学 、 心 理学 等 学 科 联 系 紧密 ， 需 要 进行 跨 领 域 的 
研究 ; 同时 个 人 数据 空间 与 群 组 数据 空间 的 关系 、 交 叉 、 接 口 等 也 都 是 非常 有 意思 的 研究 问题 。 随 着 虚拟 现实 、 可 视 化 等 技术 的 
发 展 ， 群 组 数据 空间 也 会 有 着 很 好 的 发 展 前 景 。 


8.5.5 ”个 人 数据 管理 与 大 数据 


随 着 云 时 代 的 来 临 ， 大 数据 也 吸引 了 越 来 越 多 的 关注 ， 麦 肯 锡 全 球 研 究 所 给 出 的 定义 是 : 一 种 规模 大 到 在 获取 、 人 存储 、 管 
理 、 分 析 方 面 大 大 超出 了 传统 数据 库 软件 工具 能 力 范围 的 数据 集合 ， 具 有 海量 的 数据 规模 、 快 速 的 数据 流转 、 多 样 的 数据 类 型 和 
价值 密度 低 四 大 特征 。 那 么 ， 大 数据 和 个 人 数据 管理 具有 怎样 的 关系 呢 ? 目前 来 看 ， 具 有 以 下 天 系 : 


1. 个 人 数据 本 身 就 是 大 数据 


个 人 数据 本 身 具有 大 数据 的 几 个 特性 : 海量 、 快 速 流转 、 多 样 化 和 低 价值 密度 。 因 此 个 人 数据 管理 技术 研究 本 身 也 是 对 大 数 
据 管理 相关 理论 与 技术 的 探讨 ， 其 研究 成 果 经 过 抽象 和 一 般 化 ， 也 会 对 大 数据 相关 理论 与 技术 研究 带 来 影响 ， 此 外 大 数据 管理 的 
一 些 理论 和 技术 成 果 也 可 以 借鉴 到 个 人 数据 管理 领域 ， 并 促进 该 领域 的 技术 研究 。 


2. 很 多 大 数据 应 用 依赖 于 个 人 数据 管理 


从 用 户 的 角度 ， 大 数据 技术 的 核心 是 通过 开发 大 数据 应 用 ， 提 高 用 户 的 工作 效率 和 生活 质量 ， 而 个 人 数据 管理 的 目标 也 是 如 
此 ， 从 这 个 角度 讲 两 者 的 目标 是 一 致 的 。 个 人 数据 空间 积累 了 大 量 的 个 人 数据 信息 ， 通 过 个 人 数据 计算 可 以 勾画 出 主体 的 完备 的 


数据 视图 ， 包 括 主体 性 格 、 兴 趣 、 爱 好 、 职 业 、 行 为 习惯 、 身 体 状 况 等 ， 而 这 些 数 据 往往 是 大 数据 应 用 的 基础 。 比 如 ， 未 来 的 大 
数据 应 用 包括 精准 营销 、 工 业 2.0、 精 准 医疗 、 个 性 化 教育 等 ， 这 些 应 用 都 将 以 个 人 数据 管理 为 基础 。 以 个 性 化 教育 为 例 ， 当 教 
育 服务 机 构 积累 了 海量 的 教育 大 数据 资源 的 时 人 息 ， 针 对 某 个 具体 的 客户 ， 其 个 人 数据 空间 记录 了 该 客户 的 量化 的 、 完 备 的 个 人 特 
征 信 息 ， 这 些 信息 将 成 为 制定 个 性 化 教育 方案 的 基础 。 在 精准 医疗 方面 ， 由 于 个 人 数据 空间 中 记录 了 用 户 身 体 特征 、 饮 食 特征 、 
历史 健康 数据 等 个 性 化 信息 ， 医 疗 结构 可 以 给 出 更 为 科学 的 治疗 方案 。 对 于 Web 2.0、 精 准 营销 等 大 数据 应 用 也 是 如 此 。 


由 此 可 见 ， 个 人 数据 管理 和 大 数据 应 用 具有 不 可 分 割 的 联系 。 大 数据 技术 的 最 终 目标 是 提高 人 的 工作 效率 和 生活 质量 。 未 来 
个 人 数据 管理 技术 将 与 大 数据 技术 互相 促进 ， 共 同 发 展 。 正 如 美国 最 著名 科技 杂志 《 连 线 》 创 始 主编 、 硅 谷 精神 教父 凯 文 凯利 
在 出 版 的 《必然 》 一 书 中 提 到 的 : 个 人 数据 才 是 大 未 来 。 


8.6 人 小结 


随 着 信息 技术 的 发 展 ， 个 人 数据 管理 会 不 断面 临 新 的 问题 与 挑战 。 本 章 从 数据 存储、 数据 安全 与 隐私 保护 、 数 据 融 合 几 个 方 
面 对 个 人 数据 管理 技术 发 展 进行 了 讨论 和 展望 。 并 对 个 人 数据 访问 、 评 价 标准 与 方法 、 个 人 数据 计算 、 群 组 数据 空间 、 大 数据 与 
个 人 数据 管理 等 技术 发 展 进行 了 分 析 与 展望 。 
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